Anthropic 在 Agent Teams 发布的时候也公布了一个不错的内部实现,花2万美金/2周,用 multiagent 从头写了一个 C 编译器,推荐阅读。我读完主要的感受是 :
1/ Coding AGI 真的到了,今天 Codex 博客中也说了自己在 fix model 中起了贡献。
2/ multi-agent 的价值体现在任务的时间尺度可以再次指数级增长,因为 线性的 O(N) 任务被折叠成 O(log N) 的分层协作。于是更多原本不可能的任务可以实现,大家体感的 token 消耗量会再上一个台阶。这个思路其实中国团队贡献了很多,Manus Wide Research,Kimi Agent Swarm 在这里都有重要贡献。
www.anthropic.com文章主要内容
1) 他们用 16 个 Claude 并行写了一个 C 编译器
这个目标满都很大,之前 coding agent 不太能做好。从零写一个 Rust C compiler,能编译 Linux kernel。作者说他们让 16 个 agent 并行跑、几乎不介入;两周内大约 2000 次 Claude Code session、花费约 2 万美金,产出 ~10 万行代码的编译器,能 build Linux 6.9(x86/ARM/RISC-V),还能编译一堆大项目(QEMU/FFmpeg/SQLite/postgres/redis 等),并且在多数 compiler test suite 上做到 ~99% 通过率。
2) “能跑很久”不是模型自然具备的,而是 harness 设计出来的
Claude Code 默认需要人持续在线互动,否则会“停下来等你”。作者做了个非常简单粗暴的 infinite loop harness:让 Claude 做完一件事立刻接下一件事,永远不停止;并强调要在容器里跑,而不是在真机上。这个思路和 Openclaw 的比较深似。
3) multi agent 的关键收益:high throughput 吞吐 + 不同价值任务的分工
并行能解决两类问题:
一个 agent 一次只能干一件事,并行能把 debug/修复多个 failing tests 的速度显著拉起来;
角色分工:有人写功能、有人做文档、有人做性能、有人做代码质量整治等。
他们用 git + “任务锁文件”做了一个很原始但有效的同步:每个 agent 认领一个任务文件,避免重复劳动;合并冲突很多,但 Claude 往往能自己解决。
4) human in the loop 部分:verifier 质量决定上限
作者反复强调:agent 会非常努力地“通过你给它的验收器”,所以验收器如果不严谨,最后就是“把错误问题做得很完美”。
于是他自己大量精力花在:找高质量 test suite、写 verifiers/build scripts、补 CI、把“新功能经常破坏旧功能”的回归问题压住。
同时要“站在 Claude 的视角”设计反馈:控制输出避免污染上下文、把关键信息写日志便于 grep;还要考虑模型对时间没有感知,傻跑很久测试。