Surge AI 创始人 Edwin Chen 对 AI 榜单的吐槽很狠:很多 benchmark / leaderboard 根本不是在测模型能力,而是在测“几秒内谁看起来更爽”。
以 LM Arena 为例,用户常常只扫两秒,不会认真 fact check。于是一个回答哪怕全是幻觉,只要 emoji 多、排版好、标题漂亮、看起来更“高级”,就更容易被选中。
更荒诞的是,Edwin 说他们在数据里看到,爬榜最简单的方法不是提升准确率,而是:加粗更多、emoji 翻倍、回答长度变成 3 倍——即使模型开始幻觉、答错、指令遵循变差。
但模型公司又不得不在意这些榜单,因为销售去见企业客户时会被问:“你们模型才排第 5,为什么我要买?”
于是整个行业被一个错误目标函数牵着走:研究员为了晋升爬榜,销售为了成交爬榜,公司为了 PR 爬榜。最后优化出来的不是更接近真相的 AI,而是更会制造 dopamine 的 AI slop。