即刻App年轻人的同好社区
下载
App内打开
Max_means_best
1天前
简单看了下V4的 Bench
有七点比较值得看⬇️

1️⃣V4-Pro的综合能力已经稳进顶级闭源模型区间。
DS-V4-Pro-Max 在很多关键项上
都和 Opus 4.6、GPT-5.4、Gemini 3.1 Pro 贴得很近

V4-Pro在英文知识、硬推理、通用学术任务上都能站住。

2️⃣数学和竞赛能力很强

DS-V4-Pro的Codeforces Rating 3206
高于 GPT-5.4 3168
也高于 Gemini 3.1 Pro 3052

在IMOAnswerBench
V4-Pro是89.8
Opus 4.6和Gemini 3.1 Pro高不少
只略低于 GPT-5.4
数学/竞赛推理已经非常能打。

3️⃣代码能力是最大卖点之一。
LiveCodeBench
V4-Pro是 93.5
高于 Opus 4.6 88.8 Gemini 3.1 Pro 91.7。
SWE Verified
V4-Pro是 80.6
Opus 4.6、Gemini 3.1 Pro 几乎打平

SWE Multilingual 上V4-Pro是 76.2
接近 Opus 4.6 77.5
也和 K2.6 76.7 接近

这说明它在软件工程修 bug、真实仓库任务
多语言工程上也能进第一梯队

4️⃣Agent 能力整体很稳

BrowseComp上V4-Pro是 83.4
接近 Opus 83.7
略低于 Gemini 85.9

MCPAtlas Public上V4-Pro是 73.6
基本追平 Opus 73.8
高于 GPT-5.4 67.2 Gemini 69.2

但在 Terminal Bench 2.0
V4-Pro是 67.9
低于 GPT-5.4 75.1
说明复杂终端操作/环境执行能力还有差距

5️⃣长上下文表现不错
V4 1M 长上下文可用性明显强于 Gemini 3.1 Pro但 Opus 4.6 仍然领先。

最关键的是V4-Flash
便宜/快模型没有被阉得太狠
DS-V4-Flash 在不少项目上和 Pro 差距不大

这说明 Flash 保留了大部分核心能力

对于产品落地来说
这比旗舰模型某个榜第一更有价值
因为大多数真实调用不会天天开 Max 档烧钱取暖

7️⃣效率图是最值得单独拎出来讲的。
V3.2在单 token 计算量和 KV cache 占用上下降非常明显
尤其到 1M token 级别时
V3.2 的计算量和 KV 缓存增长都非常夸张

V4-Pro/V4-Flash 的曲线低很多。
V4 不只是跑分升级
更像是架构效率升级
更低推理计算
更低 KV 缓存
更适合长上下文和高并发部署

Pro 负责冲上限
Flash 负责规模化落地
真正危险的是后者
因为便宜好用的模型才会把市场打疼(让Dario继续发癫🤪
00

来自圈子

圈子图片

科技圈大小事

100万+人已经加入