RL-based Agent被初步跑通了
最近的search-R1、ReSearch、R1-Searcher证明了同一件事:RL训练确实能让LLM学会reasoning with search tool;在几K样本上训练后,QA任务的效果提升显著,并且可以泛化到out-of-domain,也能学会使用online search tool(训练时只使用了offline search tool);
论文里放的case(图4、图5)挺有意思,仅通过RL + rule-based output reward(EM、F1等指标),LLM就学会了拆解问题、反思、自我纠正;并且要注意到,它们用的都是llama3、Qwen2.5系列模型,没用reasoning model;
RL-based Agent似乎已经被初步跑通,尤其是对于有ground truth的任务,用RL + rule-based output reward + mask loss(mask掉tool result部分的loss)是可行的技术方案;
这件事情很有意义 -- Agent的智能将越来越内置于模型本身。未来Agent的开发可能只需要 一个聪明的大脑(能在tool交互中思考)+ 任务所需的tools + 简单的Agent框架(功能简单,但要稳定可靠) + 数据收集/评估/模型微调 基建(通过端到端训练来优化Agent);
但是,还有一些问题需要被解答:这几篇论文没用LRMs,若用LRMs来训练是否会更好?对于目标模糊的任务(如deep research),要怎么稳定地RL训练?若再增加一些tool(如code, browser-use),还能否有效地RL训练?能否训练出支持custom tool的Agent Model?