给想动手的人一个建议。
别先买龙虾。先造缸。
最小起步配置:一个编排器 + 一个策略引擎 + 一个 trace 系统 + 一个 eval 数据集。
能 replay 每次执行,能定位每个错误,能回归每个版本。
做到这三点,你就已经超过 90% 的"Agent 项目"了。
一个好缸长什么样?
六个系统,对应六层 Harness:
水循环系统 = 编排层。 决定任务怎么流转。Martin Fowler 在他最近的文章里描述了三层循环:"in the loop"是人亲自改代码,"on the loop"是人改 Harness 让代码变好,更高一层是让 agent 自己改进 Harness [1]。
水质过滤 = 策略层。 什么能做什么不能做。OpenAI 的实践是用自定义 linter 把修复说明直接写进报错信息——agent 违反架构边界时,错误信息本身就是教学 [6]。
增氧泵 = 工具层。 给 agent 能力。但不是越多越好。Phil Schmid 强调:更简单的 Harness 往往优于更复杂的脚手架 [3]。
温控器 = 记忆层。 Harness 的记忆需要分成工作上下文、会话状态、长期记忆三层,跨越单个 context window 持续存在。
水质检测仪 = 校验层。 输出对不对?格式合规吗?LangChain 的实验里,加入自验证循环是跳分最关键的一步——agent 说"我做完了"之前,强制过一遍检查清单 [4]。
监控摄像头 = 观测层。 全链路 trace。LangChain 用 LangSmith 做 trace 分析,发现问题范围从推理错误到指令遵循失败都有——没有 trace 根本无法定位 [4]。