derrick.dy的个人主页

即刻App年轻人的同好社区

下载

derrick.dy

72关注128被关注0夸夸

公众号：漫谈NLP
扣子/豆包：拍照识植物、Last Check
VX：duanyu027

derrick.dy

13天前

RL不是提升Agent的唯一路径

论文：Agent Learning via Early Experience

训练Agent时，让LLM先熟悉一下环境：随便点点这、点点那，看看会发生什么。这种重在探索的早期经验，能明显提升Agent训练的效果。

论文提出两类Early Experience方法：

Implicit World Model（IWM）。只学习state_t + action_t -> state_t+1；action包括expert action + alternative actions；本质上增强模型对环境动态的理解。实际训练采取两阶段方法，先在IWM data上训练，然后在expert data上继续训练；

Self Refine（SR）。对比expert action、alternative actions，得到 “为何expert是更好选择”的CoT，然后学习state_t -> CoT + action_t；本质上增强模型的推理能力。实际训练时将SR data与expert data直接混合在一起训练。

从实验结果来看，这两类方法都比仅在expert data上训练要更好；在OOD实验上也保持了更优的效果；作为RL的起点，也能够提升最终RL的效果。看起来是一类“只要加入就会有提升”的好方法。

两类方法又各有所长：

IWM因为建模了环境动态，对于环境状态转移比较稳定/可预测、动作空间有限/结构化的场景，更有帮助，如ALFWorld、WebShop；

SR因为增强了推理能力，对于需复杂推理、有约束要求的场景，更有帮助。如TravelPlanner、ScienceWorld、BFCLv3、Tau-Bench。

这两类方法都蛮简单的，但效果都挺不错，这说明除了Agentic RL之外，可能仍有不少可以提升Agent的方向。这篇论文探索的两个方向（Agent与环境的交互、更强的推理能力）就是例子。

0 00

derrick.dy

6月前

一个低产公众号的本月发文👇

Agent基础篇：Tool-Use的定义、实现方式和效果优化

1 00

derrick.dy

6月前

多样性生成的小工具：diversity reflection

之前我写了篇reflection的文章（图2），讲过reflection本质上是个优化过程：针对某个evaluation metric进行优化。

而这个metric可以不仅是quality，也可以是diversity。例如，你生成的第N+1个样本，和之前生成的N个样本做基于emb的cosine similarity，如果最大值大于某个阈值，那么可以走入reflection流程：提供feedback - 哪方面重复啦、哪个样本比较接近等等，然后refine - 基于feedback来重写样本、或者让llm重新生成个不同aspect的样本。循环这个流程，直到满足diversity metric 或者达到迭代上限。

这个方法我是从DRAFT这篇论文（图3）看到的，感觉挺实用。有多样性生成需求的朋友可以试试。

1 02

derrick.dy

7月前

tau-bench：如何更真实地评估Agent

tau-bench是目前顶尖模型常测的数据集，简单记个笔记：

论文发表自24年6月，主要衡量Agentic tool-use能力，具体而言，User（由LLM假扮）带着目的，向Agent表达诉求，Agent通过调用tool来解决用户的需求；是多轮对话形式（见图2）；

目前tau-bench包含两个domain：retail（零售，取消订单、修改订单等）和airline（航司，订机票、改机票等）；tools主要是database api（Read、Write两类操作），见图3；

这个benchmark好在哪？第一，动态测评。每轮User query并不预先给定，而由LLM实时生成；第二，Agent需遵守特定的业务规则。包括需验证用户身份、执行操作前需用户确认、退货/改签等操作有特定限制等等；第三，直接评测结果，且rule-based。验证database的state是否与unique ground truth相同、以及agent的response是否包含所有必要信息，不同于BFCL只评测tool calling的准确性；

tau-bench对于企业构建自己的agent benchmark有参考价值；

这个榜单上，目前最强的是claude4.0 opus（70.5%，retail = 81.4%，airline = 59.6%），最新的deepseek R1-0528是58.7%（retail=63.9%，airline=53.5%），o3-high是61.2%（retail=70.4%，airline=52%），gemini2.5pro、qwen3则都未给出tau-bench的结果。

2 00

derrick.dy

8月前

RL-based Agent被初步跑通了

最近的search-R1、ReSearch、R1-Searcher证明了同一件事：RL训练确实能让LLM学会reasoning with search tool；在几K样本上训练后，QA任务的效果提升显著，并且可以泛化到out-of-domain，也能学会使用online search tool（训练时只使用了offline search tool）；

论文里放的case（图4、图5）挺有意思，仅通过RL + rule-based output reward（EM、F1等指标），LLM就学会了拆解问题、反思、自我纠正；并且要注意到，它们用的都是llama3、Qwen2.5系列模型，没用reasoning model；

RL-based Agent似乎已经被初步跑通，尤其是对于有ground truth的任务，用RL + rule-based output reward + mask loss（mask掉tool result部分的loss）是可行的技术方案；

这件事情很有意义 -- Agent的智能将越来越内置于模型本身。未来Agent的开发可能只需要一个聪明的大脑（能在tool交互中思考）+ 任务所需的tools + 简单的Agent框架（功能简单，但要稳定可靠） + 数据收集/评估/模型微调基建（通过端到端训练来优化Agent）；

但是，还有一些问题需要被解答：这几篇论文没用LRMs，若用LRMs来训练是否会更好？对于目标模糊的任务（如deep research），要怎么稳定地RL训练？若再增加一些tool（如code, browser-use），还能否有效地RL训练？能否训练出支持custom tool的Agent Model？