即刻App年轻人的同好社区
下载
App内打开
derrick.dy
72关注128被关注0夸夸
公众号:漫谈NLP
扣子/豆包:拍照识植物、Last Check
VX:duanyu027
derrick.dy
13天前
RL不是提升Agent的唯一路径

论文:Agent Learning via Early Experience

训练Agent时,让LLM先熟悉一下环境:随便点点这、点点那,看看会发生什么。这种重在探索的早期经验,能明显提升Agent训练的效果。

论文提出两类Early Experience方法:

Implicit World Model(IWM)。只学习state_t + action_t -> state_t+1;action包括expert action + alternative actions;本质上增强模型对环境动态的理解。实际训练采取两阶段方法,先在IWM data上训练,然后在expert data上继续训练;

Self Refine(SR)。对比expert action、alternative actions,得到 “为何expert是更好选择”的CoT,然后学习state_t -> CoT + action_t;本质上增强模型的推理能力。实际训练时将SR data与expert data直接混合在一起训练。

从实验结果来看,这两类方法都比仅在expert data上训练要更好;在OOD实验上也保持了更优的效果;作为RL的起点,也能够提升最终RL的效果。看起来是一类“只要加入就会有提升”的好方法。

两类方法又各有所长:

IWM因为建模了环境动态,对于环境状态转移比较稳定/可预测、动作空间有限/结构化的场景,更有帮助,如ALFWorld、WebShop;

SR因为增强了推理能力,对于需复杂推理、有约束要求的场景,更有帮助。如TravelPlanner、ScienceWorld、BFCLv3、Tau-Bench。

这两类方法都蛮简单的,但效果都挺不错,这说明除了Agentic RL之外,可能仍有不少可以提升Agent的方向。这篇论文探索的两个方向(Agent与环境的交互、更强的推理能力)就是例子。
00
derrick.dy
6月前
00
derrick.dy
6月前
多样性生成的小工具:diversity reflection

之前我写了篇reflection的文章(图2),讲过reflection本质上是个优化过程:针对某个evaluation metric进行优化。

而这个metric可以不仅是quality,也可以是diversity。例如,你生成的第N+1个样本,和之前生成的N个样本做基于emb的cosine similarity,如果最大值大于某个阈值,那么可以走入reflection流程:提供feedback - 哪方面重复啦、哪个样本比较接近等等,然后refine - 基于feedback来重写样本、或者让llm重新生成个不同aspect的样本。循环这个流程,直到满足diversity metric 或者 达到迭代上限。

这个方法我是从DRAFT这篇论文(图3)看到的,感觉挺实用。有多样性生成需求的朋友可以试试。
02
derrick.dy
7月前
tau-bench:如何更真实地评估Agent

tau-bench是目前顶尖模型常测的数据集,简单记个笔记:

论文发表自24年6月,主要衡量Agentic tool-use能力,具体而言,User(由LLM假扮)带着目的,向Agent表达诉求,Agent通过调用tool来解决用户的需求;是多轮对话形式(见图2);

目前tau-bench包含两个domain:retail(零售,取消订单、修改订单等)和airline(航司,订机票、改机票等);tools主要是database api(Read、Write两类操作),见图3;

这个benchmark好在哪?第一,动态测评。每轮User query并不预先给定,而由LLM实时生成;第二,Agent需遵守特定的业务规则。包括需验证用户身份、执行操作前需用户确认、退货/改签等操作有特定限制等等;第三,直接评测结果,且rule-based。验证database的state是否与unique ground truth相同、以及agent的response是否包含所有必要信息,不同于BFCL只评测tool calling的准确性;

tau-bench对于企业构建自己的agent benchmark有参考价值;

这个榜单上,目前最强的是claude4.0 opus(70.5%,retail = 81.4%,airline = 59.6%),最新的deepseek R1-0528是58.7%(retail=63.9%,airline=53.5%),o3-high是61.2%(retail=70.4%,airline=52%),gemini2.5pro、qwen3则都未给出tau-bench的结果。
00
derrick.dy
8月前
RL-based Agent被初步跑通了

最近的search-R1、ReSearch、R1-Searcher证明了同一件事:RL训练确实能让LLM学会reasoning with search tool;在几K样本上训练后,QA任务的效果提升显著,并且可以泛化到out-of-domain,也能学会使用online search tool(训练时只使用了offline search tool);

论文里放的case(图4、图5)挺有意思,仅通过RL + rule-based output reward(EM、F1等指标),LLM就学会了拆解问题、反思、自我纠正;并且要注意到,它们用的都是llama3、Qwen2.5系列模型,没用reasoning model;

RL-based Agent似乎已经被初步跑通,尤其是对于有ground truth的任务,用RL + rule-based output reward + mask loss(mask掉tool result部分的loss)是可行的技术方案;

这件事情很有意义 -- Agent的智能将越来越内置于模型本身。未来Agent的开发可能只需要 一个聪明的大脑(能在tool交互中思考)+ 任务所需的tools + 简单的Agent框架(功能简单,但要稳定可靠) + 数据收集/评估/模型微调 基建(通过端到端训练来优化Agent);

但是,还有一些问题需要被解答:这几篇论文没用LRMs,若用LRMs来训练是否会更好?对于目标模糊的任务(如deep research),要怎么稳定地RL训练?若再增加一些tool(如code, browser-use),还能否有效地RL训练?能否训练出支持custom tool的Agent Model?
06
derrick.dy
9月前
集中阅读了几篇论文(chess、chase、xiyan等等),然后写了这篇有点长的文

漫谈Text-to-SQL:技术框架、论文细节以及落地讨论

00
derrick.dy
9月前
这个通俗口语版的《子衿》有点意思,hhh
00
derrick.dy
10月前
derrick.dy
10月前
一个精通ML的visual数据处理工程师agent

要开发 图片/视频 应用的,可以试一下
01
derrick.dy
10月前
00