单方面宣布没有模型能在我手里活过三轮(吧)
主要由于(该死的)工作需求,自从大模型们卷推理能力之后,经常找不到测试方法——做高考数学?咱也不会啊。
这两天从游法里获得了灵感,捣鼓出了一套终极测试。
创意来自游戏的法则第三季首轮主竞赛的游戏水果商店。这是一套需要不同玩家之间进行博弈和心理战的游戏。每个人对自己手中的水果进行出价,价低者得。
对于模型而言,基本所有方面都可以一次性考察:语义理解、交叉计算、上下文记忆、推理和规划。综艺里更复杂,我简化了一点。具体的assignment和出价,都可以直接编个Python跑一下(顺便测代码能力了)。
目前测过GPT4o,o1preview,Claude,Gemini,kimi,智谱,海螺。这个游戏有一个特点:第一轮一旦出错,后面就不用算了,因而Gemini 智谱 kimi 4o都是第一轮直接挂,海螺白卷。
Claude和o1preview都比较稳,claude两轮里都没有错过,但卡了限额没有测第三轮。o1preview则是能准确改正,但到第三轮最后的总价还是扑街了。苹果上周发的研究报告还是很写实的:离了真题库之后,模型不具备真正意义上的推理计算能力。
最好玩的推理规划这一关没有走到。如果claude第三轮还存活,可以抽掉一个出价,让模型扮演并且给出收益最大化的bid。如果这样还存活,就抽掉两个出价,模型演一个,自己演一个,这是最有意思的地方。
这个游戏本身也很适合人多的时候当桌游玩,如果对自己跟朋友们的感情有信心的话😊