关于用套娃模式🪆实现超级智能体的一些思考👇
单 Agent 的核心步骤:
一、任务规划
1. 输入:query + tools
2. 模型:deepseek-r1 / claude-3.7-think / gpt-4o
3. 提示词:理解用户输入,挑选合适工具,返回需要调用的工具+对应参数,输出 DSL
4. 响应:
[
{ type: text: content: how-to-do}
{ type: tools, content:[
{ name: tool1, arguments: {} },
{ name: tool2, arguments: {} } ]
}
]
二、Agent 执行
1. 并行分发执行任务到 tool1, tool2 对应的 sub- agent
2. sub-agent 执行 function,返回数据给调度者
三、结果验证
1. 拿query + tools 执行结果,验证当前上下文信息是否足够回答问题
2. 信息充足,直接回答
3. 信息不足,返回下一步应该执行的 tools 列表
4. 提示词工程:上下文信息,tools 功能描述, tools 执行结果、判断依据、退出条件
sub-agent 的实现逻辑:
1. 简单版:调用 function,返回结果
2. 完整版:规划 -> 执行(sub sub agent ) -> 验证
原子功能 agent:
1. 联网搜
2. 执行命令 / 创建文件 / 写入内容
3. 生成代码
4. browser use
由内向外的套娃实现:
1. 在联网搜 agent 上面包一层,实现 query rewrite,reranking 等功能,做成一个 ai search agent
2. 在生成代码 agent 上面包一层,规划项目路径,生成项目文件,做成一个 ai coding agent
由外向内的调度逻辑:
1. 外层 agent:规划 -> 调度 -> 验证
2. 内层 agent:执行 -> 重试 -> 返回结果
重点:
1. 依赖模型的理解能力,能否精准识别并分发任务到指定 agent
2. 业务抽象能力,越上层的 agent,业务功能越复杂,相当于一个垂直赛道的产品
3. 原子抽象能力,把业务无关的功能,抽成原子 agent,比如搜索,读写文件,浏览器操作(browser use)
几种产品形态:
1. 纯云端通用 agent,以Manus 为代表,自定义很多原子 agent,上层业务 agent 占大头,执行任务慢,token 消耗高
2. 纯本地通用 agent,还未有代表产品,以海量的 mcp server 作为原子 agent,制作少量的上层业务 agent,理论上执行任务更高效,成本问题也更好解决
3. 云端垂类 agent,以 same 为代表,只需要在少量原子 agent 基础上实现一个上层业务 agent 即可,实现更简单,效果更收敛
我个人看好以海量 MCP Server 为原子 agent 的超级 Agent 产品。MCP so 最近也在做 Server Hosting 方面的事情。
欢迎探讨,未来可期。💪