即刻App年轻人的同好社区
下载
App内打开
知骤
7月前
安利李宏毅老师的Agent课程:www.youtube.com
可以作为快速入门Agent的课程来看,课程内容不算硬核,非技术同学也可放心食用。

如果觉得时间不够,也可以快速浏览下我做的笔记:
Agent:人类只给目标,ai自己想办法达成
- Goal:reward,人为给定
- Observation:当前状态
- Action:根据当前状态采取行动,改变环境从而产生新的Observation
类比RL框架:learn to maximize reward,需要对每一个任务训练一个模型

LLM-based agent
- Goal:prompt
- observation:环境转化成语言(或图片),拼接到prompt中
- action:一段文字描述,并转成指令

优势:
- llm-based输出action更加灵活,可以使用各种工具
- typical agent需要定义reward,有大量magic number;llm-based agent不需要reward

ai agent发展历程:
- 浏览器图像输入,CNN处理,输出按钮点击
- World of Bits: An Open-Domain Platform for Web-Based Agents (ICML, 2017) proceedings.mlr.press

- 古早语言模型
- Mind2Web:arxiv.org
- WebArena:arxiv.org

- 用AI训练模型
- AIDE: The Machine Learning Engineer Agent arxiv.org
- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions arxiv.org

- AI co-scientist
- research.google

- llm agent
- 2023年:autogpt
- 2023年:斯坦福小镇(群体智能)、Minecraft的ai npc
- openai operator/claude compute use:让ai使用电脑,举例:
- goal:订披萨
- observation:浏览器状态
- action:点什么键等

交互方式:
- 回合制
- 即时:模型执行过程中,外界环境改变,这时模型需要能够快速反馈更改执行策略。比如语音对话场景。
- 实时语音模型survey:arxiv.org

llm agent(没有任何模型被训练)关键能力:
1、memory
read模块做与当前情景相似search,search出相关的memory(见P1)
与RAG一样,唯一区别是RAG存在memory中的内容是别人的经历/全网信息
- benchmark:StreamBench,arxiv.org
- knowhow:正面例子比负面例子有用得多

完整架构:
read
write:只记录重要的事情(可以也是一个ai agent)
reflection:对过去记忆整理(可以也是一个ai agent),也可以建立一个知识图谱
- GraphRAG:arxiv.org
- HippoRAG:arxiv.org
(见P2)
更多论文:
- MemGPT:arxiv.org
- Agent Workflow Memory:arxiv.org
- A-MEM: Agentic Memory for LLM Agents:arxiv.org

2、tool
常见工具:
- 搜索引擎
- python代码
- 其他软件服务
- 其他ai模型

怎么使用工具?
- function call
调用现成函数:见P3
- MCP

调用其他ai模型:
详见P4
询问llm这段音频说了啥。system prompt中需要包括左边这一系列可调用语音模型的介绍。
llm会生成调用各个语音模型的python代码,执行即可得到最终答案

工具很多怎么办?
和memory一样做search,工具选择模块! 见P5
- arxiv.org
- arxiv.org

AI自己打造工具:见P9
- TroVE: arxiv.org
- LATM: arxiv.org
- CREATOR: arxiv.org
- CRAFT: arxiv.org

工具是否会犯错?
- 工具知识与模型本身知识差别越大,模型就越不容易相信
- 模型对自身知识的信心越高,就越不容易被动摇 arxiv.org404.10198v1
- 模型更容易相信ai生成内容(较于人为内容)arxiv.org401.11911
- 模型更容易相信更新发布的内容 aclanthology.org
- 文章来源不会影响
- 文章排版方式会有影响

3、planning
根据observation做规划 arxiv.org305.04091
根据observation实时更改规划
见P6、P7

llm做规划能力:
- arxiv.org201.07207
- benchmark:PlanBench arxiv.org206.10498 arxiv.org305.15771
- benchmark:TravelPlanner arxiv.org402.01622
- 让llm能使用现成的solver工具,正确率大大提升 arxiv.org404.11891

强化ai agent的规划能力
- 与实际环境互动,bfs/dfs暴力搜索。见P8
- 暴搜+做剪枝 arxiv.org407.01476
- 有些动作覆水难收:虚拟环境内演练,需要有world model来模拟真实环境可能的反馈 arxiv.org411.06559
- 过度深度思考的危害:arxiv.org502.08235
383

来自圈子

圈子图片

AI探索站

101319人已经加入