OpenAI o1 preview 系列模型测评汇总:
- 代码能力测试
- 强推理要求
- 解析不完整的json 来自
@阿晓Ocean :
web.okjike.com,o1-preview和o1-min明显强于Claude 3.5 Sonnet、GPT 4o、GPT 4
- bug解决与重构
- 来自
@zxch3n :
web.okjike.com 比 Claude 3.5 Sonnet 略胜一筹
- 来自@zxch3n:https://web.okjike.com/originalPost/66e6a302b441981cf3a59842 让 o1-preview 重构了一坨屎山,效果超好,文档啥的都加上了,只用改两三行代码,测试全过,一次跑通
- 前端
- React 组件与页面生成:
mp.weixin.qq.com Claude 3.5 Sonnet比o1-preview和o1-min更优
- 样式适配:
x.com Sonnet 一把过, o1-preview调用不稳定,o1-mini效果很差
- 游戏
- 4小时写了一个超级玛丽的网页游戏:
x.com - 8次提示做出了一个《异星工厂》风格自动化游戏原型:
x.com- 数学能力测试
- 复杂的数学建模问题,来自
@阿晓Ocean :
web.okjike.com o1-mini > Claude 3.5 Sonnet > o1-preview > GPT 4o ≈ GPT 4
- 高中难度的概率问题,来自
@阿晓Ocean :
web.okjike.com GPT 4o ≈ o1-min ≈ o1-preview > Claude 3.5 Sonnet ≈ GPT 4
- 斐波那契数列公式(来自
@bigmarvin ):
web.okjike.com 确实慢也确实准
- 研究生级别数学专业问题:
mathstodon.xyz 体验类似于指导一个水平一般但不算太无能的研究生
- 高考压轴题:
www.zhihu.com,无论是o1 mini还是o1 preview,前两问都能做出来,第3问o1 preview能答出部分。GPT-4o、Claude sonnet 3.5、Gemini 1.5 Pro、及国产模型,第一问全错
- 2024 年高考数学卷:
x.com 、
x.com除了证明题没有测试之外,全对
- 2024 考研数学一大题测试:
x.com 5 道题对三错二
- 全国高中数学联赛的 2024 真题:
mp.weixin.qq.com、
x.com 一共11题,120分,o1能答对9题。考虑排名的话,o1 在全国高中生范围中排名应该在前500,和openai的测试结果差不多。
- 理科题目
- 来自
@小七姐 :
web.okjike.com,很复杂的问题,o1-preview也能计算正确
- 博士级别的物化生问题:
mp.weixin.qq.com 物理达到博士60-80 分水平;化学:有研究生水平,但是深入的认知和给方案的能力比较弱;生物:幻觉较多
-
www.zhihu.com中科院 2013 年考研专业课的量子力学(甲)真题,3分钟解答,考了120多分。对于需要相当推理深度和广度的逻辑谜题,比之前模型有了巨大进步,但离完全答对还很远。
- 密码推理:
x.com 两种经典密码学方法组合的密文,无法解决。
- 趣味计算:
mp.weixin.qq.com 中等复杂的问题第一,但更复杂的思考会偷懒,且大部分场景下可以通过优化提示词让Claude 3.5追上GPT-o1
- 中级微观经济学考试:
x.com o1-preview超过98%的学生,GPT 4在50分位数。
- IQ/纯推理测试
- 挪威门萨智商测试:
www.maximumtruth.org:IQ测试达到120,图形化的题目用文字描述出来,可能有一定的水分。同样的方式,Claude 3.5 Sonnet、GPT 4o大概在90左右,GPT 4在80多
- arc-prize:
arcprize.org o1-preview和Claude 3.5 Sonnet的正确率在21%,o1-mini为13%,GPT 4o为9%,Gemini 1.5为8%,专有模型最高46%,人类正确率在80%左右。说明o1离AGI还很遥远。不过这里的测试对人类来说,主要依靠视觉,让未开放视觉能力的o1-preview API来回答有些不公平。
- 修改版的爱因斯坦谜题:
x.com 多数能答对
- 数独:
x.com 测了三次,每次思考在80-110秒左右,一次正确两次错误
- 中文语言分析
- 隐晦意思分析:
x.com GPT-4o 是懂的,但是表达的很隐晦,Claude 似乎是懂装不懂,o1 mini 就完全不懂,o1 preview不止懂,还直白的描述出来了
- 大海捞针测试
-
x.com gpt 4o能找到,o1找不到。
- 混合测试
- 数学AIME竞赛、海龟汤推理等:
mp.weixin.qq.com AIME题都对;情景推理慢于GPT-4o,但更准确;生活中的购物优惠计算问题,帮忙不大
- 推理、大学数理化、iOS天气应用制作等:
mp.weixin.qq.com 推理和大学题都对了,10分钟做了一款简单的天气应用,小数比较依然不对,数字母能力提升
-
www.zhihu.com 2024 年高考数学试卷可以做到 120 多分(满分 150),只用 10 分钟就完成了答题。小学奥数题基本全能做对。编程方面,可以独立完成一个 demo 项目的开发,目测比目前代码能力最强的 Claude 3.5 Sonnet 代码能力更强。