安利李宏毅老师的Agent课程：https://www.yo

即刻App年轻人的同好社区

下载

知骤

10月前

安利李宏毅老师的Agent课程：www.youtube.com
可以作为快速入门Agent的课程来看，课程内容不算硬核，非技术同学也可放心食用。

如果觉得时间不够，也可以快速浏览下我做的笔记：
Agent：人类只给目标，ai自己想办法达成
- Goal：reward，人为给定
- Observation：当前状态
- Action：根据当前状态采取行动，改变环境从而产生新的Observation
类比RL框架：learn to maximize reward，需要对每一个任务训练一个模型

LLM-based agent
- Goal：prompt
- observation：环境转化成语言（或图片），拼接到prompt中
- action：一段文字描述，并转成指令

优势：
- llm-based输出action更加灵活，可以使用各种工具
- typical agent需要定义reward，有大量magic number；llm-based agent不需要reward

ai agent发展历程：
- 浏览器图像输入，CNN处理，输出按钮点击
- World of Bits: An Open-Domain Platform for Web-Based Agents (ICML, 2017) proceedings.mlr.press

- 古早语言模型
- Mind2Web：arxiv.org
- WebArena：arxiv.org

- 用AI训练模型
- AIDE: The Machine Learning Engineer Agent arxiv.org
- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions arxiv.org

- AI co-scientist
- research.google

- llm agent
- 2023年：autogpt
- 2023年：斯坦福小镇（群体智能）、Minecraft的ai npc
- openai operator/claude compute use：让ai使用电脑，举例：
- goal：订披萨
- observation：浏览器状态
- action：点什么键等

交互方式：
- 回合制
- 即时：模型执行过程中，外界环境改变，这时模型需要能够快速反馈更改执行策略。比如语音对话场景。
- 实时语音模型survey：arxiv.org

llm agent（没有任何模型被训练）关键能力：
1、memory
read模块做与当前情景相似search，search出相关的memory（见P1）
与RAG一样，唯一区别是RAG存在memory中的内容是别人的经历/全网信息
- benchmark：StreamBench，arxiv.org
- knowhow：正面例子比负面例子有用得多

完整架构：
read
write：只记录重要的事情（可以也是一个ai agent）
reflection：对过去记忆整理（可以也是一个ai agent），也可以建立一个知识图谱
- GraphRAG：arxiv.org
- HippoRAG：arxiv.org
（见P2）
更多论文：
- MemGPT：arxiv.org
- Agent Workflow Memory：arxiv.org
- A-MEM: Agentic Memory for LLM Agents：arxiv.org

2、tool
常见工具：
- 搜索引擎
- python代码
- 其他软件服务
- 其他ai模型

怎么使用工具？
- function call
调用现成函数：见P3
- MCP

调用其他ai模型：
详见P4
询问llm这段音频说了啥。system prompt中需要包括左边这一系列可调用语音模型的介绍。
llm会生成调用各个语音模型的python代码，执行即可得到最终答案

工具很多怎么办？
和memory一样做search，工具选择模块！见P5
- arxiv.org
- arxiv.org

AI自己打造工具：见P9
- TroVE: arxiv.org
- LATM: arxiv.org
- CREATOR: arxiv.org
- CRAFT: arxiv.org

工具是否会犯错？
- 工具知识与模型本身知识差别越大，模型就越不容易相信
- 模型对自身知识的信心越高，就越不容易被动摇 arxiv.org404.10198v1
- 模型更容易相信ai生成内容（较于人为内容）arxiv.org401.11911
- 模型更容易相信更新发布的内容 aclanthology.org
- 文章来源不会影响
- 文章排版方式会有影响

3、planning
根据observation做规划 arxiv.org305.04091
根据observation实时更改规划
见P6、P7

llm做规划能力：
- arxiv.org201.07207
- benchmark：PlanBench arxiv.org206.10498 arxiv.org305.15771
- benchmark：TravelPlanner arxiv.org402.01622
- 让llm能使用现成的solver工具，正确率大大提升 arxiv.org404.11891

强化ai agent的规划能力
- 与实际环境互动，bfs/dfs暴力搜索。见P8
- 暴搜+做剪枝 arxiv.org407.01476
- 有些动作覆水难收：虚拟环境内演练，需要有world model来模拟真实环境可能的反馈 arxiv.org411.06559
- 过度深度思考的危害：arxiv.org502.08235

69 383

来自圈子

AI探索站

106029人已经加入