安利李宏毅老师的Agent课程:
www.youtube.com可以作为快速入门Agent的课程来看,课程内容不算硬核,非技术同学也可放心食用。
如果觉得时间不够,也可以快速浏览下我做的笔记:
Agent:人类只给目标,ai自己想办法达成
- Goal:reward,人为给定
- Observation:当前状态
- Action:根据当前状态采取行动,改变环境从而产生新的Observation
类比RL框架:learn to maximize reward,需要对每一个任务训练一个模型
LLM-based agent
- Goal:prompt
- observation:环境转化成语言(或图片),拼接到prompt中
- action:一段文字描述,并转成指令
优势:
- llm-based输出action更加灵活,可以使用各种工具
- typical agent需要定义reward,有大量magic number;llm-based agent不需要reward
ai agent发展历程:
- 浏览器图像输入,CNN处理,输出按钮点击
- World of Bits: An Open-Domain Platform for Web-Based Agents (ICML, 2017)
proceedings.mlr.press- 古早语言模型
- Mind2Web:
arxiv.org - WebArena:
arxiv.org- 用AI训练模型
- AIDE: The Machine Learning Engineer Agent
arxiv.org - AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions
arxiv.org- AI co-scientist
-
research.google- llm agent
- 2023年:autogpt
- 2023年:斯坦福小镇(群体智能)、Minecraft的ai npc
- openai operator/claude compute use:让ai使用电脑,举例:
- goal:订披萨
- observation:浏览器状态
- action:点什么键等
交互方式:
- 回合制
- 即时:模型执行过程中,外界环境改变,这时模型需要能够快速反馈更改执行策略。比如语音对话场景。
- 实时语音模型survey:
arxiv.orgllm agent(没有任何模型被训练)关键能力:
1、memory
read模块做与当前情景相似search,search出相关的memory(见P1)
与RAG一样,唯一区别是RAG存在memory中的内容是别人的经历/全网信息
- benchmark:StreamBench,
arxiv.org- knowhow:正面例子比负面例子有用得多
完整架构:
read
write:只记录重要的事情(可以也是一个ai agent)
reflection:对过去记忆整理(可以也是一个ai agent),也可以建立一个知识图谱
- GraphRAG:
arxiv.org- HippoRAG:
arxiv.org(见P2)
更多论文:
- MemGPT:
arxiv.org- Agent Workflow Memory:
arxiv.org- A-MEM: Agentic Memory for LLM Agents:
arxiv.org2、tool
常见工具:
- 搜索引擎
- python代码
- 其他软件服务
- 其他ai模型
怎么使用工具?
- function call
调用现成函数:见P3
- MCP
调用其他ai模型:
详见P4
询问llm这段音频说了啥。system prompt中需要包括左边这一系列可调用语音模型的介绍。
llm会生成调用各个语音模型的python代码,执行即可得到最终答案
工具很多怎么办?
和memory一样做search,工具选择模块! 见P5
-
arxiv.org-
arxiv.orgAI自己打造工具:见P9
- TroVE:
arxiv.org- LATM:
arxiv.org- CREATOR:
arxiv.org- CRAFT:
arxiv.org工具是否会犯错?
- 工具知识与模型本身知识差别越大,模型就越不容易相信
- 模型对自身知识的信心越高,就越不容易被动摇
arxiv.org404.10198v1
- 模型更容易相信ai生成内容(较于人为内容)
arxiv.org401.11911
- 模型更容易相信更新发布的内容
aclanthology.org - 文章来源不会影响
- 文章排版方式会有影响
3、planning
根据observation做规划
arxiv.org305.04091
根据observation实时更改规划
见P6、P7
llm做规划能力:
-
arxiv.org201.07207
- benchmark:PlanBench
arxiv.org206.10498
arxiv.org305.15771
- benchmark:TravelPlanner
arxiv.org402.01622
- 让llm能使用现成的solver工具,正确率大大提升
arxiv.org404.11891
强化ai agent的规划能力
- 与实际环境互动,bfs/dfs暴力搜索。见P8
- 暴搜+做剪枝
arxiv.org407.01476
- 有些动作覆水难收:虚拟环境内演练,需要有world model来模拟真实环境可能的反馈
arxiv.org411.06559
- 过度深度思考的危害:
arxiv.org502.08235