即刻App年轻人的同好社区
下载
App内打开
ginobefun
221关注85被关注0夸夸
中年程序员
两个萌娃的爹
ex 华为、阿里,现金融行业
喜欢折腾点有意思的事情
ginobefun
2月前
《智能体设计模式》第七章「智能体协作模式」完成翻译 🔽

中文版在线阅读:mp.weixin.qq.com

中英对照阅读:github.com

以下是关于智能体协作模式章节的概览内容:

多智能体协作模式通过组织一组相互协作、各司其职的专长型智能体来突破单一智能体的能力边界。这种模式基于任务分解和专业化分工原则,将复杂的跨领域任务拆解为若干独立的子问题,并将每个子问题分配给拥有相应工具、数据权限或推理能力的智能体来处理。系统的效能不仅源于分工,更取决于智能体之间的通信机制和协调策略。这里为大家梳理几个核心要点:

1. 核心理念:从单一处理到协同分工
多智能体协作模式的核心在于建立「任务拆解 → 专业分工 → 协同工作 → 结果整合」的智能流程,让系统具备超越单一智能体能力的协同效应。智能体之间可以采取顺序、并行、层级、辩论等多种协作形式。

- 单一智能体的局限:在处理任务明确、范围清晰的问题时表现良好,但在面对需要多种专业知识、涉及多个独立阶段的复杂跨领域任务时往往力不从心。
- 协作模式的价值:通过多个专业智能体的分工协作,系统可以同时处理需要不同技能的子任务,单个智能体的故障不会导致整个系统瘫痪,整体表现往往超越任何单一智能体的能力上限。

2. 六种协作架构
多智能体系统支持多种通信和组织架构,从简单到复杂形成完整的谱系(见附图):

- 单智能体:独立运行,无需与其他智能体直接交互,适合可分解为独立子问题的场景。
- 网络化:去中心化的点对点交互,智能体直接共享信息、资源和任务,结构更具弹性。
- 监督者模式:专门的监督者智能体负责协调下级智能体,充当通信、任务分配和冲突解决的中心枢纽。
- 监督者作为工具:监督者提供资源、指导或分析来辅助其他智能体,而非直接指挥控制。
- 层级结构:多层组织结构,高层级监督者管理低层级监督者,底层是执行智能体,适合可拆分的复杂任务。
- 自定义架构:融合已有模型特点的混合方案或针对特定场景的全新设计,提供终极灵活性。

3. 六种协作形式
智能体之间的协作可以采取多种形式,每种都适用于不同的场景:

- 顺序交接:一个智能体完成任务后将输出交给下一个智能体,形成管道式工作流。
- 并行处理:多个智能体同时处理问题的不同部分,最后合并结果,提升整体效率。
- 辩论与共识:不同智能体通过讨论和评估各种方案,形成共识或得出更可靠的决策。
- 层级委派:管理型智能体根据执行型智能体的能力动态分配任务并汇总结果。
- 专家团队:由各领域专业智能体(如研究员、撰稿人、编辑)协同完成复杂任务。
- 评审者模式:一组智能体生成初始输出,另一组严格评估其质量、合规性和正确性,并据此改进。

4. 典型应用场景
多智能体协作模式在七大领域展现出核心价值:

- 复杂研究与分析:多个智能体协同完成研究项目,分工负责搜索、整理、分析和报告生成。
- 软件开发:由需求分析、开发、测试、文档等专职智能体协同开发和验证各个组件。
- 创意内容生成:市场调研、文案撰写、设计素材、社媒排期等专长智能体协同完成营销活动。
- 财务分析:不同智能体分别负责获取数据、分析情绪、技术分析和生成投资建议。
- 客户支持:一线智能体处理常见咨询,复杂问题按专业领域升级给相应的专家智能体。
- 供应链优化:代表供应链不同节点的智能体协作优化库存、物流和排期。
- 网络分析与故障修复:多个专职智能体协同进行问题排查、修复并提出最优处理建议。

5. 实现框架与特点

- CrewAI:创建智能体时定义角色、目标和背景故事,为每个智能体分配任务,通过 Crew 组合智能体和任务列表,使用 kickoff() 启动顺序工作流。文中示例展示了研究员和写手协作完成博客创作的完整流程。
- Google ADK:提供丰富的智能体类型满足不同协作需求:使用 sub_agents 参数建立层级关系;LoopAgent 配合 max_iterations 实现循环执行;SequentialAgent 通过 output_key 在会话状态中传递数据;ParallelAgent 并发执行多个子智能体;AgentTool 将智能体封装为工具供其他智能体调用。

6. 使用时机与权衡
当任务复杂度超出单个智能体的处理能力且可拆解为需要不同专业技能的子任务时,应当使用多智能体协作模式:

- 适用场景:任务需要多种专业知识;包含多个独立阶段或并行处理的子任务;能从不同智能体的相互验证中受益;单个智能体无法高效完成的复杂工作流。
- 权衡考量:增加了系统复杂度,需要精心设计通信协议和协调机制;需要权衡通信开销与性能提升;选择合适的架构模型(单智能体、网络化、监督者、层级等)取决于具体场景。
- 核心价值:通过分工协作实现协同效应,构建更具模块化、可扩展性和鲁棒性的系统,解决单个整体智能体无法应对的复杂问题。

https://mp.weixin.qq.com/s/c-hy15cnkZlYlrS320xcYA

01
ginobefun
2月前
《智能体设计模式》第六章「规划模式」完成翻译,目前已翻译章节:

00 - 前言部分 mp.weixin.qq.com

01 - 第一章:提示链模式 mp.weixin.qq.com

02 - 第二章:路由模式 mp.weixin.qq.com

03 - 第三章:并行模式 mp.weixin.qq.com

04 - 第四章:反思模式 mp.weixin.qq.com

05 - 第五章:工具使用模式 mp.weixin.qq.com

06 - 第六章:规划模式mp.weixin.qq.com

规划模式让智能体具备前瞻性思维能力,能够将复杂任务拆解为更小且可管理的步骤,并制定实现预期结果的策略。通过规划能力,智能体不再只是对眼前输入作出反应,而是能够自主规划从初始状态到目标状态的完整路径。这里为大家梳理几个关键要点:

1. 核心理念:从被动响应到主动规划
规划模式的核心在于建立「理解目标 → 制定计划 → 执行步骤 → 灵活调整」的智能流程,让智能体具备战略性、目标导向的执行能力。

- 传统模式的局限:基础智能体只能对眼前输入作出反应,缺乏处理复杂多步骤任务的能力,无法将高层次目标拆解为可执行的子任务。
- 规划模式的价值:智能体能够接收高层次目标并自主拆解为有序的执行步骤,在遇到阻碍时灵活调整路线,从而有效处理包含多个步骤和相互依赖的复杂任务。

2. 规划的关键特征
规划模式通过以下特征实现智能化的任务执行:

- 目标驱动:接收高层次的目标声明(做什么)而非具体指令(如何做」,由智能体自主决定实现路径。
- 即时生成:计划不是预先存在的,而是根据当前状况和目标要求即时生成的。
- 灵活应变:初步计划只是出发点,智能体能够接纳新信息并在遇到阻碍时动态调整策略。
- 结构化分解:将复杂目标拆解为一系列更小、可执行的步骤或子目标,按逻辑顺序处理依赖关系。

3. 典型应用场景
规划模式在四大领域展现出核心价值:

- 流程自动化:编排复杂工作流,如新员工入职流程,包括创建账户、分配培训、部门协调等有序子任务。
- 机器人与自主导航:进行状态空间遍历,生成从起始状态到目标状态的最优路径,同时遵守环境约束。
- 结构化信息整合:生成研究报告等复杂输出,规划包含信息收集、数据归纳、内容结构化、迭代打磨等阶段。
- 多步骤问题解决:制定并对系统化流程进行诊断、实施解决方案,并在必要时升级处理。

4. 实现框架与特点
- CrewAI:通过定义明确的智能体角色和任务,支持先规划后执行的工作流,适合结构化的多步骤任务。
- Google 深度研究:利用多步骤动态迭代流程,把用户提示拆解为研究计划,循环执行搜索与分析,生成带引用的结构化报告。
- OpenAI 深度研究接口:提供编程化控制能力,支持 MCP 协议连接私有知识库,展示完整的中间步骤(推理、搜索、代码执行)。

5. 使用时机与权衡
当任务复杂度超出单一操作范围时,应当使用规划模式,但需要权衡灵活性与可预测性:

- 适用场景:任务需要多个相互依赖的步骤才能完成;「如何做」的方案需要探索而非已经明确;需要自动化处理复杂的工作流程;需要生成全面、综合的结果。

- 权衡考量:当问题的解决方法已经清楚且可重复时,固定流程比动态规划更有效;规划增加灵活性的同时也引入了不确定性;需要在自主性和可预测性之间找到平衡。

- 核心价值:将智能体从简单的被动响应者提升为战略性、目标导向的执行者,能够管理复杂流程并产出全面综合的结果。

点击项目链接 github.com 可双语对照阅读,跟踪最新翻译进展,也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~

https://mp.weixin.qq.com/s/klWy1WkOtnL3HIinMUptgA

00
ginobefun
2月前
刚集中看了下 DeepSeek-OCR 模型的论文和报导,发现这个模型名字虽然叫 OCR,但它真正目标其实是想解决当前模型在处理长文本时面临的算力噩梦。传统 AI 处理文本时,计算量会随文本长度平方级增长,成本极高。
DeepSeek 的思路是跳出这个困局,不再让 AI 逐字「阅读」一维文本,而是让它「观看」被渲染成二维图像的文本。这就是他们提出的「上下文光学压缩」范式,利用一图胜千言的原理,将海量文本压缩成极少量的视觉 Token。

模型的核心是编码器 DeepEncoder,它采用「先局部、再压缩、后全局」的三阶段设计:先用窗口注意力高效处理高分辨率图像的局部细节,再通过一个 16 倍卷积压缩器大幅减少 Token 数量,最后用全局注意力来理解这些被浓缩后的精华 Token。解码器则是一个 3B MoE 模型,负责从这些视觉 Token 中重建出原始文字,从而实现了一种全新的文本压缩范式。

这个方法的效率极为惊人。在 10 倍压缩率下,解码准确率高达 97%。在 OmniDocBench 基准上,它使用不到 800 个视觉 Token,就大幅超越了平均使用近 7000 Token MinerU2.0,而一块 A100 显卡每天就能处理超过 20 万页数据。

因此,这不仅是一个 SOTA 级别的 OCR 工具,还被认为是「AI JPEG 时刻」,为 AI 的输入和记忆架构打开了新路径。连 Karpathy 都表示,这也许证明了像素是比文本更好的输入方式,带来了更短的上下文窗口和更高的效率。
02
ginobefun
2月前
《智能体设计模式》第五章「工具使用模式」完成人工校对,前后四天大概花了十几个小时阅读了三遍。这章实战的示例比较多,特别是 Google ADK 里内置了谷歌搜索和代码执行器的例子挺有收获的,建议大家一起阅读。

目前已翻译章节:

00 - 前言部分 mp.weixin.qq.com

01 - 第一章:提示链模式 mp.weixin.qq.com

02 - 第二章:路由模式 mp.weixin.qq.com

03 - 第三章:并行模式 mp.weixin.qq.com

04 - 第四章:反思模式 mp.weixin.qq.com

05 - 第五章:工具使用模式 mp.weixin.qq.com

工具使用模式让智能体能够突破大语言模型训练数据的局限,与外部系统、接口和服务进行交互。通过函数调用机制,智能体不再局限于文本生成,而是能够获取实时信息、执行计算、操作数据库,甚至控制现实世界的设备。这里为大家梳理几个关键要点:

1. 核心理念:从文本生成到行动执行
工具使用模式的核心在于建立「理解需求 → 决策调用 → 执行工具 → 整合结果」的交互流程,让智能体具备感知和改变外部世界的能力。

传统模式的局限:基础大语言模型只能基于训练数据生成文本,无法获取实时信息、执行精确计算或触发外部操作,知识是静态的且与现实世界脱节。
工具使用的价值:通过函数调用机制,智能体可以调用外部工具来获取最新数据、执行复杂计算、访问私有信息或触发现实操作,使其从被动的文本生成器变成主动的行动执行者。

2. 工具调用的六步流程
工具使用模式通过标准化的流程实现智能体与外部系统的协作:

工具定义:向大语言模型描述可用的外部函数,包括用途、名称、参数类型和说明。
大语言模型决策:模型根据用户请求和工具定义,判断是否需要调用工具来完成任务。
生成函数调用:模型生成结构化输出(通常是 JSON),指明要调用的工具名称和提取的参数。
工具执行:智能体框架捕获输出并执行相应的外部函数调用。
观察/结果:工具执行的结果返回给智能体。
结果处理:模型将工具输出整合到上下文中,生成最终回复或决定下一步操作。

3. 典型应用场景
工具使用模式可以在以下六大场景中发挥关键作用:

获取外部信息:查询实时天气、股票价格等大语言模型训练数据中未包含的动态信息。
与数据库和接口服务交互:查询产品库存、检查订单状态、处理支付等结构化数据操作。
执行计算和数据分析:使用计算器、统计工具完成精确的数学运算和数据分析任务。
发送通知:通过邮件、消息等通信服务接口发送通知和信息。
执行代码:在安全的沙箱环境中运行代码片段,完成编程辅助和自动化任务。
控制系统或设备:与智能家居设备、物联网平台等联网系统交互,触发现实世界的操作。

4. 实现框架与特点
LangChain:使用 @Tool 装饰器定义工具,通过 create_tool_calling_agent 和 AgentExecutor 构建能够使用工具的智能体,支持灵活的工具集成。
CrewAI:提供简洁的工具定义方式,智能体可以轻松配备多个工具,支持复杂的多智能体协作场景。
Google ADK:内置丰富的预置工具(Google 搜索、代码执行器、Vertex AI Search 等),同时支持自定义工具和企业级扩展。

5. 使用时机与价值
当智能体需要突破内部知识局限并与外部世界互动时,应当使用工具使用模式:

- 适用场景:需要实时数据或动态信息;需要访问私有或专有数据源;需要执行精确计算或代码;需要在其他系统中触发操作;需要与企业内部服务集成。
- 核心价值:将大语言模型从纯文本生成器转变为能够感知、推理和行动的智能体;使智能体能够处理现实世界的复杂任务;为构建真正实用的 AI 应用奠定基础。

点击项目链接 github.com 可双语对照阅读,跟踪最新翻译进展,也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~

https://mp.weixin.qq.com/s/5heErBvn_8MgoSTB-lPqDw

00
ginobefun
2月前
我们的《智能体设计模式》中文翻译项目github.com 马上 1.2k Star,现在还有专属的【阅读交流群】啦!

无论你是想一起阅读、交流心得,还是对翻译提出宝贵建议,都欢迎你的加入。后续我们还会组织交流或直播活动哦!

一个人看书不如一群人讨论。🌟 加入我们吧 ~
00
ginobefun
2月前
《智能体设计模式》第四章「反思模式」完成人工校对,有两位新朋友志愿加入翻译,后面的节奏应该会快起来了,相互评审质量也更有保证,继续加油 💪🏻

目前已翻译章节:

00 -《智能体设计模式》前言部分 mp.weixin.qq.com

01 -《智能体设计模式》第一章:提示链模式 mp.weixin.qq.com

02 -《智能体设计模式》第二章:路由模式 mp.weixin.qq.com

03 -《智能体设计模式》第三章:并行模式 mp.weixin.qq.com

04 -《智能体设计模式》第四章:反思模式 mp.weixin.qq.com

反思模式让智能体具备自我评估和迭代改进的能力,通过引入反馈循环来不断优化输出质量。智能体不再只是执行任务并产出结果,而是会回过头来审视自己的工作,找出问题并生成更优版本。这里为大家梳理几个关键要点:

1. 核心理念:从一次性输出到迭代优化
反思模式的核心在于建立「执行 → 评估 → 优化 → 迭代」的反馈循环,让智能体具备自我纠错和持续改进的能力。

传统模式的局限:基础智能体工作流通常是一次性执行,产出结果后就结束,无法识别和修复自己的错误,导致输出可能不够准确、完整或符合复杂要求。
反思模式的价值:通过引入评估和反思环节,智能体可以检查自己的输出是否准确、连贯、完整,并根据反馈意见进行改进,最终产生更高质量、更可靠的结果。

2. 「生产者-评论者」架构
反思模式的关键实现方式是将流程拆分为两个独立角色,通过职责分离提高评判的客观性:

生产者智能体(Producer):专注于完成任务的初始执行,负责生成内容、编写代码或制定计划等,产出第一版输出。
评论者智能体(Critic):专门评估生产者的输出,以独立视角根据特定标准(事实准确性、代码质量、风格要求等)分析问题并提供结构化反馈。
反馈循环:评论者的意见传回给生产者,生产者据此优化内容,如此迭代直到满足质量要求或达到停止条件。

3. 典型应用场景
反思模式在六大场景中展现出显著优势:

- 创意写作和内容生成:对博客文章、营销文案等进行多轮润色,从流畅性、语气、表达清晰度等方面持续改进。
- 代码生成和调试:编写初始代码后运行测试或静态分析,识别错误或低效之处并优化,生成更健壮的代码。
- 复杂问题解决:在多步推理任务中评估每个步骤,发现问题时回退并尝试其他方案,增强分析和解决能力。
- 摘要和信息综合:对比摘要与原文要点,找出遗漏或不准确之处并修订,生成更准确全面的摘要。
- 规划和策略:制定计划后模拟执行或评估可行性,根据评估结果改进调整,制定更有效的计划。
- 对话智能体:回顾对话历史保持上下文连贯,纠正误会并提升回答质量,实现更自然高效的沟通。

4. 实现框架与特点
- LangChain/LCEL:通过构建对话历史和使用不同系统提示来区分「生产者」和「评论者」角色,迭代执行「生成-评审-改进」循环。
- LangGraph:利用图结构和状态管理原生支持反馈循环和条件跳转,实现完整的迭代反思流程。
- Google ADK:使用 SequentialAgent 串联生产者和审查者智能体,配合 LoopAgent 可实现自动化的迭代改进。

5. 使用时机与权衡
当满足以下条件时应考虑使用反思模式,但需注意其成本:

- 适用场景:输出质量、准确性、细节比速度和成本更重要;任务需要高质量内容、准确代码或详细计划;需要更高客观性或专业评估的场景。
- 成本权衡:每次迭代通常需要额外的模型调用,增加延迟和成本;会话历史不断增长会占用更多内存;可能面临超出上下文窗口或 API 限流的风险。

点击项目链接 github.com 可双语对照阅读,跟踪最新翻译进展,欢迎参与、反馈或随个 Star ~

https://mp.weixin.qq.com/s/vUxS-ev8lk66nOPRpqHK7g

01
ginobefun
2月前
《智能体设计模式》第三章「并行模式」完成人工校对,前面三章都是基础的逻辑控制,相对比较好理解,可以学习下实战部分的代码,了解 LangChain 和 Google 智能体开发套件是怎么实现提示链、路由和并发模式的。

目前已翻译章节:

00 -《智能体设计模式》前言部分 mp.weixin.qq.com
01 -《智能体设计模式》第一章:提示链模式 mp.weixin.qq.com
02 -《智能体设计模式》第二章:路由模式 mp.weixin.qq.com
03 -《智能体设计模式》第三章:并行模式 mp.weixin.qq.com

并行模式精华概览
并行模式通过同时执行多个独立任务来提升智能体系统的效率和响应速度,将原本需要串行等待的操作转变为并发执行,是优化复杂智能体工作流性能的关键技术。这里为大家梳理几个关键要点:

1. 核心理念:从顺序到并发
并行模式的核心在于识别工作流中互不依赖的环节,并将它们并发执行,从而大幅缩短总体执行时间。

- 顺序执行的局限:传统的线性工作流让每个任务等待前一个任务完成才开始执行,在涉及多个外部 I/O 操作 (如 API 调用、数据库查询) 时,总耗时会是各个任务耗时的累加,导致系统响应缓慢、效率低下。
- 并行模式的价值:通过同时启动多个独立任务,在等待外部资源响应的同时执行其他操作,能显著减少总等待时间。例如研究智能体可以同时搜索多个数据源,而非逐个查询。

2. 典型应用场景
并行模式在七大场景中展现出显著优势:

- 信息收集和研究:同时从新闻、股票数据、社交媒体、公司数据库等多个来源收集信息,快速获得全面视图。
- 数据处理和分析:并行进行情感分析、关键词提取、分类、紧急问题识别等多维度分析,提供多角度洞察。
- 多 API 或工具交互:旅行规划时同时检查航班、酒店、活动、餐厅,快速制定完整行程。
- 多组件内容生成:营销邮件创作时并行生成主题、正文、图片、按钮文案,高效完成内容制作。
- 验证和核实:同时检查邮件格式、电话号码、地址、不当内容,快速完成多重验证。
- 多模态处理:同时分析文本情感和图像内容,快速整合不同模态的信息。
- A/B 测试或方案生成:并行生成多个文案版本,快速比较并选出最优方案。

3. 实现框架与特点
-LangChain LCEL:使用 RunnableParallel 将多个可运行组件打包成字典或列表,框架会自动并行执行所有组件,然后将结果传递给下一步。
- LangGraph:通过图的拓扑结构实现并行,从一个公共节点同时触发多个无依赖关系的节点,各路径独立运行后在汇聚点合并。
- Google ADK:使用 ParallelAgent 协调多个子智能体的并发执行,配合 SequentialAgent 可构建「先并行再汇总」的完整流程。

4. 使用时机:适用场景
当系统满足以下任一条件时,应考虑使用并行模式:

- 工作流包含多个相互独立、无依赖关系的子任务;
- 需要调用多个外部 API 或服务来获取不同类型的数据;
- 要对同一输入进行多种不同的处理或分析;
- 总执行时间主要消耗在等待外部资源响应上;
- 需要生成多个版本的输出以供比较和选择。

点击项目链接 github.com 可双语对照阅读,跟踪最新翻译进展,欢迎参与、反馈或随个 Star ~

https://mp.weixin.qq.com/s/0y8g-Df7aHRyJedRm7TvcA

00
ginobefun
2月前
《智能体设计模式》第二章「路由模式」完成人工校对,需要仔细对照原文和译文三四遍,同时对 AI 翻译进行润色,前后大概要三四个小时,好在每阅读一次感觉都有不同的理解和收获。

目前已翻译章节:

00 -《智能体设计模式》前言部分 mp.weixin.qq.com
01 -《智能体设计模式》第一章:提示链模式 mp.weixin.qq.com
02 -《智能体设计模式》第二章:路由模式 mp.weixin.qq.com

路由模式为智能体系统引入了条件分支能力,让系统能够根据实际情况动态选择最优的后续动作,是构建自适应智能体系统的关键控制机制。

以下是第二章「路由模式」的精华概览 🔽

核心理念:智能决策与动态分发
路由机制决定将请求交给哪个功能模块、工具或子流程处理,让智能体不再沿着固定流程执行,而是能根据环境状态、用户输入或执行结果等情境信息,从多个可选方案中选择合适的行动路径。

提示链的局限:单一的线性工作流缺乏基于上下文做出决策的能力,无法应对各种各样的输入和情境,导致系统僵化且缺乏适应性。

路由模式的价值:通过引入条件逻辑,系统能够分析输入、识别意图,然后动态地将控制流导向最合适的专业工具或子智能体,实现灵活且具上下文感知的工作流。

四种路由实现方式
1. 大模型路由(LLM-based): 通过提示词引导语言模型分析输入并输出分类标识,指示下一步的执行目标。适合需要理解复杂语义的场景。

2. 向量路由(Embedding-based): 将输入查询转换为向量嵌入,与代表不同路由的嵌入向量比较,路由到相似度最高的路径。适合语义路由场景,例如「帮我退款」和「订单有问题想取消」都会路由到退款流程。

3. 规则路由(Rule-based): 使用预定义规则(如 if-else、switch)基于关键词或模式进行决策。速度快且具有确定性,但灵活性较低。

4. 机器学习路由(ML Model-Based): 采用在标注数据上专门训练的判别式模型。决策逻辑编码在微调后模型的学习权重中,不依赖实时大模型调用。

三大实际应用场景
1. 人机交互: 虚拟助手识别用户意图后,简单问题交由问答智能体,账户查询调用数据库工具,复杂问题升级到人工处理。

2. 数据处理流水线: 可以基于内容、元数据或传入数据进行分析,导向相应的工作流,如销售线索处理或紧急问题升级。

3. 多智能体协作: 高级调度器根据当前目标将任务分配给最合适的智能体。例如研究系统中的搜索、总结、分析智能体,或 AI 编码助手根据编程语言和意图选择专业工具。

实践框架与特点
LangChain/LangGraph:使用 RunnableBranch 实现条件路由,通过路由链分析请求意图,然后根据输出结果将请求委派给相应的处理器。

Google ADK:使用 sub_agents 定义子智能体,框架会自动启用大语言模型驱动的委派机制,无需显式编写路由逻辑。

使用时机:适用场景
当系统满足以下任一条件时,应考虑使用路由模式:

- 需要根据用户输入在多个不同工作流、工具或子智能体之间做出选择;
- 应用需要对传入请求进行分类或分派以处理不同类型任务;
- 构建需要区分处理的客户支持、咨询系统等多功能应用;
- 实现需要动态适应环境变化和上下文的智能决策系统。

点击项目链接 github.com 可双语对照阅读,跟踪最新翻译进展,欢迎参与、反馈或随个 Star ~
01
ginobefun
2月前
《智能体设计模式》之提示链模式:分而治之的任务分解模式[译]

单个提示处理复杂任务往往导致模型忽视指令、丢失上下文。提示链模式通过将任务分解为顺序执行的子任务,显著提升可靠性。本文翻译自谷歌工程主管撰写的《智能体设计模式》第一章,详解提示链的核心理念、七大应用场景、实践框架及上下文工程,是构建高级智能体系统的基础。

以下是第一章「提示链模式」的精华概览

提示链模式是 21 个智能体设计模式中最基础也最重要的一个,它为构建能够规划、推理和执行复杂工作流的高级智能体系统奠定了基础。这里为大家梳理几个关键要点:

1. 核心理念:分而治之
提示链模式,也称为「管道模式」,采用「分而治之」策略,将复杂任务分解为一系列更小、更易管理的子问题。每个子问题通过专门设计的提示独立解决,前一步的输出传递给下一步作为输入,形成一个逻辑清晰的处理流水线。

- 单一提示的困境:用单个复杂提示处理多任务往往会导致模型忽视指令、丢失上下文、早期错误被放大、产生幻觉等问题。

- 提示链的优势:通过顺序分解,显著提升可靠性与可控性。每一步都更简单、更明确,降低模型认知负荷,带来更准确、更可靠的最终输出。

2. 七大实际应用场景
信息处理工作流:文档总结 → 实体提取 → 数据库查询 → 报告生成

复杂问答:问题分解 → 分别研究 → 信息整合 → 生成答案

数据提取和转换:OCR 提取 → 数据规范化 → 外部计算 → 结果整合

内容生成工作流:主题构思 → 大纲搭建 → 分段起草 → 审阅润色

有状态对话智能体:识别意图 → 更新状态 → 生成响应 → 维持上下文

代码生成和优化:需求理解 → 伪代码 → 初始代码 → 错误识别 → 优化重写

多模态和多步推理:文本提取 → 标签关联 → 表格解读 → 综合输出

3. 使用时机:经验法则
当任务满足以下任一条件时,应考虑使用提示链模式:

- 任务过于复杂,单个提示难以胜任
- 涉及多个独立的处理步骤
- 需要在步骤间与外部工具交互
- 构建需要多步推理和状态维持的智能体系统

点击项目链接 github.com 可双语对照阅读,跟踪最新翻译进展,欢迎参与、反馈或随个 Star ~

https://mp.weixin.qq.com/s/aHldQUFhX1cgAAeAtWsmfg

01
ginobefun
2月前
《智能体设计模式》中文翻译计划启动

接下来的一周,我将通过 AI 初次翻译 → AI 交叉评审 → 人工精读优化的方式来翻译这本书,所有翻译内容将持续更新到开源项目:github.com

本书由 Antonio Gulli 撰写、谷歌 Cloud AI 副总裁 Saurabh Tiwary 作序、高盛 CIO Marco Argenti 鼎力推荐,系统性地提炼出 21 个核心智能体设计模式,涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。更难得的是,本书的所有版税都将捐赠给救助儿童会,这是一份真正属于开发者社区的公益之作。

前言部分精华概览
今天完成了前言部分的人工校对,完成的翻译内容我已发布到公众号 mp.weixin.qq.com,这里为大家梳理几个关键要点:

1. 来自行业领袖的深度洞见
谷歌 Cloud AI 副总裁 Saurabh Tiwary 在序言中指出,我们正在从构建「仅能处理信息的模型」,迈向创造「能够推理、规划和行动的智能系统」。他将智能体开发比作在画布上创作,而设计模式正是这块画布上的基本笔触。

高盛 CIO Marco Argenti 则以「权力与责任」为题,分享了他对智能体技术的深刻思考。他坦言自己最初是怀疑的——早期模型「被优化的目标是追求可信度,而非正确性」。但推理模型的出现带来了质的飞跃,他第一次试用智能体编程工具时,「感受到了那种久违的、如魔法般的火花」。

更重要的是,Marco 强调了专业精神和企业文化的重要性。在金融这样高风险的领域,智能体的失误代价巨大。他提出的三大原则值得所有开发者铭记:

- 为使命而构建:确保每个智能体都始于对客户问题的清晰理解
- 洞见未来,防患未然:预见失败模式,设计具有韧性的系统
- 启迪信任,不负所托:对方法保持透明,对结果负责

2. 什么是智能体系统?
书中给出了清晰的定义:智能体系统是一种能够感知环境、根据目标做出决策、并自主执行行动的计算实体。

不同于遵循固定脚本的传统软件,智能体系统具备以下核心特征:

- 自主性:无需持续人工监督即可行动
- 主动性:能主动发起行动以实现目标
- 反应性:能有效应对环境变化
- 工具使用:与外部 API、数据库或服务交互
- 记忆:在多次交互中保留信息
- 通信:与用户、系统或其他智能体交互

3. 智能体的演进层级
书中提出了一个实用的智能体分级框架:

- 0 级:核心推理引擎 - 大语言模型本身,仅基于预训练知识响应,无法感知当前事件。

- 1 级:连接外部的问题解决者 - 能够使用外部工具来解决超出预训练知识范围的问题。这是 RAG 技术的典型应用场景。

- 2 级:战略性问题解决者 - 具备战略规划、主动协助和自我提升能力。核心赋能技能是提示工程和上下文工程。它能够战略性地选择、打包和管理最相关信息,确保高效决策。

- 3 级:协作型多智能体系统 - 这是一次重大范式转变:不再追求单一全能的超级智能体,而是转向复杂的、协作式的多智能体系统。就像人类组织一样,由不同专家组成的团队协同工作,通过劳动分工和协调产生强大的协同效应。

4. 智能体的未来:五大假设
书中对智能体的未来提出了五个极具前瞻性的假设:

假设 1:通用智能体的崛起 - 从狭隘专家演变为能高可靠性管理复杂、模糊、长期目标的通用型选手。替代路径是「乐高式」的小型语言模型组合。

假设 2:深度个性化与主动发现目标 - 智能体将成为深度个性化的主动合作伙伴,不仅响应指令,更能预测需求,主动发现和支持用户的潜在目标。

假设 3:具身化与物理世界交互 - 通过与机器人技术结合,智能体将挣脱数字束缚,在物理世界中运作,弥合数字智能与物理行动的鸿沟。

假设 4:智能体驱动的经济 - 高度自主的智能体将成为经济中的积极参与者,创造新的市场和商业模式,形成超高效率的「智能体经济」。

假设 5:目标驱动的、可演化的多智能体系统 - 系统能基于声明性目标自主运作,动态修改多智能体工作团队的拓扑结构,在架构层面和指令层面实现真正的自我演化。
01