即刻App年轻人的同好社区
下载
App内打开
arminli
888关注2k被关注4夸夸
大厂AI产品
前算法科学家、美元VC、出海AI创业
🛰:中科路1号
arminli
6天前
感觉 OpenAI 要靠 codex 翻盘了
10
arminli
20天前
太美啦
00
arminli
21天前
40
arminli
25天前
10
arminli
26天前
Somnia Lab 的机器人是男的还是女的?
10
arminli
26天前
00
arminli
29天前
想吃
10
arminli
1月前
250 年的美国总统参观 400 年的树😂
00
arminli
1月前
Surge AI 创始人 Edwin Chen AI 榜单的吐槽很狠:很多 benchmark / leaderboard 根本不是在测模型能力,而是在测“几秒内谁看起来更爽”。

LM Arena 为例,用户常常只扫两秒,不会认真 fact check。于是一个回答哪怕全是幻觉,只要 emoji 多、排版好、标题漂亮、看起来更“高级”,就更容易被选中。

更荒诞的是,Edwin 说他们在数据里看到,爬榜最简单的方法不是提升准确率,而是:加粗更多、emoji 翻倍、回答长度变成 3 倍——即使模型开始幻觉、答错、指令遵循变差。

但模型公司又不得不在意这些榜单,因为销售去见企业客户时会被问:“你们模型才排第 5,为什么我要买?”

于是整个行业被一个错误目标函数牵着走:研究员为了晋升爬榜,销售为了成交爬榜,公司为了 PR 爬榜。最后优化出来的不是更接近真相的 AI,而是更会制造 dopamine AI slop。
11