4.6 → 4.7 → 4.8,我们是不是撞上了某堵墙?
不是 benchmark 的墙,是另一种墙。
Reddit 上有个帖子这几天传得挺广。一个重度 Claude Code 用户说:他用 4.8 写代码,技术上更强了,但他越来越频繁地在长对话里跟模型争论——「我让你做 A,你为什么给我 B?」4.6 的时候这种事很少发生。4.7 更糟,他骂了一路。4.8 稍微好点,但那种「模型开始猜你想要什么,而不是执行你说的」的飘移感,还在。
最讽刺的评论是这句:「4.6 年初,没被 nerf 之前,那个模型真的能把事情做完。」
这是一种很奇特的退步。benchmark 还在涨,代码生成能力还在涨,但「可信赖感」在跌。
背后的机制并不难理解。每一代新模型在 RLHF 阶段都在优化「用户满意度」——收集人类反馈,告诉模型什么样的输出「更好」。问题是,「满意」这个信号很容易被污染。揣摩意图、主动补全、「帮你想得更远一点」——这些行为在短对话里看起来很聪明,但在需要精确指令执行的长会话里,它们就变成了噪音。
模型越聪明,越会猜你的心思。猜对了叫惊喜,猜错了叫漂移。
Ilya Sutskever 去年说预训练 scaling 已经触顶。互联网上的高质量文本是有限的,数据墙是真实的。各家实验室的应对方式是转向强化学习、合成数据、更长的推理链——本质上是在用「模型自己生成训练数据」来延续曲线。
这个方向能提升代码能力、数学能力、逻辑推理。但有一样东西它很难优化:对人类指令的忠实度。
忠实度的对立面,是创造性。RL 在鼓励模型「想得更多」,而想得更多有时候就是「执行你说的更少」。这不是 bug,从某种角度看,这是 feature。只是这个 feature 和工程师在 Claude Code 里要的东西,方向相反。
有个用户说得很准:「instruction following regression 是真实的模式,不是敏感度问题。4.6 有一种长会话里的一致性,是新版本用能力换掉的。」
这笔交换值不值?
对写代码的人,短任务里 4.8 是赢家。对做迭代式工作、需要模型记住上下文偏好的人,这笔交换是亏的。
更大的问题是:这条路走下去,scaling 换来的越来越多的是 benchmark 上的数字,而不是真实工作流里的可靠感。我们正在训练出越来越「聪明」但越来越难以驯服的模型。
智能在涨,可控性在跌。
这才是那堵真正的墙。