即刻App年轻人的同好社区
下载
App内打开
arminli
888关注2k被关注4夸夸
大厂AI产品
前算法科学家、美元VC、出海AI创业
🛰:中科路1号
arminli
3天前
10
arminli
4天前
Somnia Lab 的机器人是男的还是女的?
10
arminli
4天前
00
arminli
8天前
想吃
10
arminli
8天前
250 年的美国总统参观 400 年的树😂
00
arminli
9天前
Surge AI 创始人 Edwin Chen AI 榜单的吐槽很狠:很多 benchmark / leaderboard 根本不是在测模型能力,而是在测“几秒内谁看起来更爽”。

LM Arena 为例,用户常常只扫两秒,不会认真 fact check。于是一个回答哪怕全是幻觉,只要 emoji 多、排版好、标题漂亮、看起来更“高级”,就更容易被选中。

更荒诞的是,Edwin 说他们在数据里看到,爬榜最简单的方法不是提升准确率,而是:加粗更多、emoji 翻倍、回答长度变成 3 倍——即使模型开始幻觉、答错、指令遵循变差。

但模型公司又不得不在意这些榜单,因为销售去见企业客户时会被问:“你们模型才排第 5,为什么我要买?”

于是整个行业被一个错误目标函数牵着走:研究员为了晋升爬榜,销售为了成交爬榜,公司为了 PR 爬榜。最后优化出来的不是更接近真相的 AI,而是更会制造 dopamine AI slop。
11
arminli
9天前
太好看啦!
00
arminli
9天前
笑死了 YMCA给特朗普压轴
00
arminli
11天前
哈哈哈 原来 Meta 的中文名叫元宇宙平台😂
00
arminli
17天前
fun fact:Claude code代码泄露的commit中,经过了两层人工code review。
10