分享读了几篇 LLM 复盘报告的感受
最近 Anthropic、OpenAI、智谱都发布了一篇各自线上问题的复盘 blog,分别是:
- Claude Code 近期质量下降的复盘
- GPT 模型莫名其妙输出“哥布林”的复盘
- 智谱 GLM-5 输出乱码、复读、生僻字的复盘
联想到去年 Anthropic 和 OpenAI 也有过类似用户侧体验降级的复盘,趁着假期,今天把几篇博客整体拿出来一起学习了一下,看看有没有共性,以及对 Agent 开发者有哪些启发。
异常的表现:
用户侧感受到的“模型表现下降”,其实不只有一种形式。
- 有些表现得像能力下降,比如 Claude Code 更容易遗忘上下文、推理接不上
- 有些是风格和人格的问题,比如 GPT-4o 某个版本变得过度谄媚,太容易顺着用户说
- 有些是表达习惯异常,比如 GPT 系列模型突然更容易输出“哥布林”这类很突兀的词
- 还有一些是更明显的输出异常,比如智谱 GLM-5 在复杂 Coding Agent 任务里出现乱码、复读、生僻字
这些问题不像传统软件 bug 那样明显,也不一定容易发现和复现;它们不一定会直接体现在 benchmark 榜单上,但真实用户在连续使用过程中会冷不丁感受到模型表现不如预期。
问题的原因:
不同于传统软件,大模型和 Agent 产品表现不如预期,可能是系统中任何一个环节出问题导致的。从下到上,可能是模型问题、推理引擎层问题,也可能是 Agent 产品 harness 问题。
- 模型问题:去年 GPT-4o 某个版本表现得过于谄媚、今年 GPT 模型输出“哥布林”概率升高,都属于模型层的问题。再往底层追溯,可以反映为训练数据质量问题,以及训练时的奖励信号问题。更谄媚的表现和“哥布林”输出,在训练过程中更容易被奖励模型判定为好的输出,最终结果就是训练出来的模型不符合预期。
- 推理引擎问题:去年 Claude 有一段时间降智明显,当时 Anthropic 官方多次表态不会因为成本或者负载因素主动降低服务质量,最终排查出来是推理链路中的底层问题。
智谱的博客里也提到了类似的问题:GLM-5 在标准推理环境下表现正常,但在高并发、长上下文的 Coding Agent 场景下,会偶发乱码、复读、生僻字。最后定位到的不是模型本身,而是大规模推理系统里的状态管理和缓存一致性问题。
- Agent 产品 harness 问题:Claude Code 在某个版本降低默认的思考等级,本意是希望平衡智能水平和响应延迟,最终导致输出质量降低;某些 bug 导致推理历史被错误清理,后续轮次接不上前面的思考,表现出来就是用户感觉 Claude Code 更容易遗忘;还有一段为了防止模型输出太冗长的系统提示词,也导致了编码质量下降。
漏放的原因:
还有一个比较深的感受就是,即使 LLM 公司内部已经有不少发布前准出机制,仍然会有一些导致用户负反馈的 bug 或变更漏到线上。一些谄媚的表达无法通过量化指标来识别、大规模推理时才会概率性出现的 bug 无法简单在内部环境下复现。
这说明模型的评测和准出机制仍然有覆盖不到的方面。包括后置的用户反馈通道,以及用户反馈的复现、定位和修复工具链,也需要更多提升。
对 Agent 产品开发者的启示:
- Agent 产品交付的是端到端体验。
模型本身的能力和品性很重要,但 Agent harness 如何让模型在具体产品场景里稳定发挥,同样重要。开发者首先要定义清楚自己希望产品表现出什么能力、边界和风格,再结合对模型的手感,通过评测、消融实验、上下文组织、工具设计和默认配置,调配出一个合适的 Agent 环境。这个过程本身就是 Agent 开发者的差异化价值。
- 用户反馈和内部指标都重要,互相校准。
用户反馈更贴近真实体验,很多“模型变差了”“有点怪”“不如以前好用”的问题,往往是用户先感知到;但用户反馈也会比较稀疏、有噪音,并且样本有偏。内部指标更稳定、覆盖面更广,也更适合做版本对比和持续监控,但它不一定能完整代表真实用户体验。所以更好的方式不是二选一,而是把用户反馈当成问题发现信号,再把高质量反馈沉淀成内部评测、回归用例和上线准出标准。
- 建立更短的用户反馈到问题修复闭环。
用户说“产品变笨了”通常是一个模糊症状,不能直接复现。在保证用户隐私的前提下,Agent 产品尽可能保留必要的调试信息,结合用户反馈形成可分析的 bad case,引入 Coding Agent 直接进行问题复现、原因分析、代码修复、评测准出流程,让整个过程的链路更短,更少人工介入。
相关链接:
- Anthropic:An update on recent Claude Code quality reports,
anthropic.com- OpenAI:Where the goblins came from,
openai.com- 智谱:Scaling Pain:超大规模 Coding Agent 推理实践,
zhipuai.cn- Anthropic:A postmortem of three recent issues,
anthropic.com- OpenAI:Sycophancy in GPT-4o,
openai.com- OpenAI:Expanding on what we missed with sycophancy,
openai.com