简单看了下V4的 Bench
有七点比较值得看⬇️
1️⃣V4-Pro的综合能力已经稳进顶级闭源模型区间。
DS-V4-Pro-Max 在很多关键项上
都和 Opus 4.6、GPT-5.4、Gemini 3.1 Pro 贴得很近
V4-Pro在英文知识、硬推理、通用学术任务上都能站住。
2️⃣数学和竞赛能力很强
DS-V4-Pro的Codeforces Rating 是 3206
高于 GPT-5.4 的 3168
也高于 Gemini 3.1 Pro 的 3052
在IMOAnswerBench 上
V4-Pro是89.8
比 Opus 4.6和Gemini 3.1 Pro高不少
只略低于 GPT-5.4
数学/竞赛推理已经非常能打。
3️⃣代码能力是最大卖点之一。
LiveCodeBench 上
V4-Pro是 93.5
高于 Opus 4.6 的 88.8 和 Gemini 3.1 Pro 的 91.7。
SWE Verified 上
V4-Pro是 80.6
和 Opus 4.6、Gemini 3.1 Pro 几乎打平
SWE Multilingual 上V4-Pro是 76.2
接近 Opus 4.6 的 77.5
也和 K2.6 的 76.7 接近
这说明它在软件工程修 bug、真实仓库任务
多语言工程上也能进第一梯队
4️⃣Agent 能力整体很稳
BrowseComp上V4-Pro是 83.4
接近 Opus 的 83.7
略低于 Gemini 的 85.9
MCPAtlas Public上V4-Pro是 73.6
基本追平 Opus 的 73.8
高于 GPT-5.4 的 67.2 和 Gemini 的 69.2
但在 Terminal Bench 2.0 上
V4-Pro是 67.9
低于 GPT-5.4 的 75.1
说明复杂终端操作/环境执行能力还有差距
5️⃣长上下文表现不错
V4 的 1M 长上下文可用性明显强于 Gemini 3.1 Pro但 Opus 4.6 仍然领先。
最关键的是V4-Flash
便宜/快模型没有被阉得太狠
DS-V4-Flash 在不少项目上和 Pro 差距不大
这说明 Flash 保留了大部分核心能力
对于产品落地来说
这比旗舰模型某个榜第一更有价值
因为大多数真实调用不会天天开 Max 档烧钱取暖
7️⃣效率图是最值得单独拎出来讲的。
V3.2在单 token 计算量和 KV cache 占用上下降非常明显
尤其到 1M token 级别时
V3.2 的计算量和 KV 缓存增长都非常夸张
而 V4-Pro/V4-Flash 的曲线低很多。
V4 不只是跑分升级
更像是架构效率升级
更低推理计算
更低 KV 缓存
更适合长上下文和高并发部署
Pro 负责冲上限
Flash 负责规模化落地
真正危险的是后者
因为便宜好用的模型才会把市场打疼(让Dario继续发癫🤪