现阶段关于模型效果的测评有个很奇怪的或者很别扭的现象,大家包括大模型厂商、媒体,每次新发模型就必须在 benchmark 上排排坐,比大小。但是同时大家又隐隐约约的知道,这个一直用这种测试集来测评好像不太合理,或者说你用测试集来引导模型去做出更好的表现,其实是有问题的
大家隐隐约约感觉到这个事情,但这个游戏呢,好像就你,你围观我,我围观你,你踩我,我踩你,我就大家都参与进来了,就就都陷入这个游戏里面,没办法自拔了。
这感觉就跟我们招人很像啊,你很多公司招人的时候,那你第一眼筛简历,你怎么筛选,那你肯定就是看看业绩啊,甚至有很多时候,大家都会回到所谓的看高考成绩,对吧?你是哪个学校毕业的?这个事情就很矛盾,但是又好像没有很好的解法的感觉