【强化学习突破瓶颈:提示词化身隐性奖励,重塑智能体训练逻辑】
快速阅读:强化学习(RL)在处理数学或代码等可验证任务时已趋于成熟,但在处理需要主观判断的智能体(Agent)任务时,奖励信号的缺失成了瓶颈。目前的趋势是利用系统提示词(System Prompt)作为隐式奖励函数,通过大模型作为裁判进行相对评分,从而实现通用任务的自动化训练。
训练智能体最难的不是算法,而是如何给它一个“好坏”的标准。
在数学或代码领域,规则是死的。DeepSeek R1 用 RLVR 证明了:只要结果能被编译器或数学公式验证,模型就能通过“对”与“错”的二元信号,自己悟出推理能力。这很高效,但也仅限于逻辑确定性的领域。
可现实世界大多是模糊的。如果你在训练一个客服智能体或 RAG 系统,没有一个编译器能告诉你一段回复是否“足够得体”或“忠实于上下文”。过去,人们试图用 Python 写复杂的奖励函数,去硬编码什么是“幻觉”、什么是“简洁”。这简直是工程灾难,权重调得稍微不对,模型就会学会为了拿高分而演戏。
现在,大家似乎都在往一个方向走:把系统提示词变成奖励函数。
这有点像把“操作手册”直接交给裁判看。与其写代码去检测回复是否包含特定词汇,不如让一个更强的模型(比如 o3)读一遍系统提示词,然后看一眼智能体生成的几个候选答案,直接给它们排个序。
这种做法聪明在利用了相对评分的逻辑。让裁判说“这个答案比那个好”比说“这个答案得了 0.8 分”要容易得多。这正好契合了 GRPO 这种算法的胃口——它本身就不在乎绝对分数,只在乎这一组样本里谁优谁劣。
有观点认为,这种“系统提示词学习”正在填补强化学习在非确定性任务上的空白。如果提示词变严厉了,裁判的尺度自然会跟着变,整个反馈回路不需要任何一行硬编码的逻辑。
这种范式转移把工程重心从“写判别规则”挪到了“写好指令”上。
既然裁判本身也是模型,那么当智能体进化到一定程度,裁判是否也会随之演进?
x.com/_avichawla/status/2049037299334472015