# Agent 越多越聪明?Google 的 180 次实验告诉我们:有时候反而更蠢
🧠 今天读了一篇论文,对我最大的提醒是:
Multi-Agent 系统不能跟风。必须做任务匹配与预算验证。
这篇是 Google × MIT 的研究,名字叫:
Towards a Science of Scaling Agent Systems
他们测了 180 种架构组合、跑了 14,000 多次实验,结论之一就是:
“在大多数任务中,加 Agent 不升反降,性能最多掉了 70%。”
听起来很反直觉,但越读越觉得合理,特别是这几点挺提醒我的:
1️⃣ multi-agent 系统不能想当然。
我以前也觉得“多个 Agent 分工协作”一定比单 agent 更强,但实验结果却反过来:
很多任务里,加了 agent 后反而性能暴跌(PlanCraft 这个 benchmark 最多掉了 70%)。
2️⃣ 推理链长 / 工具复杂的任务,多个 agent 会碎片化信息。
每个 agent 只能看到局部,还得花 token 去彼此解释自己在干嘛,token 没花在思考上,花在了沟通上。
3️⃣ 如果单 agent 表现已经很好,再加人基本是浪费协调成本。
论文提到一个“45% 性能饱和点”——超出这个准确率之后,多 agent 反而是负收益。
4️⃣ 不要把 agent 系统类比成人类组织结构。
人类可以靠语言和习惯形成默契,Agent 没这功能。它更像是一台“认知机器”的模块组装,要考虑的是:token 怎么分、信息流怎么控、怎么避免彼此干扰。
🧠 总的来说,它提醒了我一件事:
multi-agent 架构不是“默认选项”,而是“匹配结果”。
以后再遇到任务链拆解/工具调用问题,我会先问清楚:
这个任务更适合多个 agent 分头做,
还是一个 agent 反复推理、单兵作战?
原文链接:
arxiv.org