Cursor 发布的 Composer 2 技术报告里特别提到了开源评测榜单的失效。
前几天小米发布的 MiMo-V2-Pro 跑分很高,我也第一时间冲了 API,但是…一用一个不吱声。
榜单分数和用户测试实际体验有差距的第一个主要原因是,公开榜单提示词都很长,往往能得到更好的结果,但是用户使用时提示词很短,也更加模糊,对模型能力要求更高。
同时这些榜单的测试修改代码往往都比较短,真实场景中修改涉及多个文件,代码长度更长,也造成不匹配。
随着模型基座训练数据增大,大部分的基础 bug 也早就被模型背下来了,所以公开榜单的分数参考意义不大了。
所以看到最近越来越多的厂商开始构建自己的测试集,有自己的榜单打分标准。
后面对模型的评估,越来越难了,只能自己上手测试看符不符合自己的场景需求。甚至,可能还需要构建自己的评测集,来测试模型的能力,来找到最合适自己场景的模型。
cursor.com