详解o3: 无限接近AGI,但没人用得起
OpenAI今天正式发布了其最新的模型——大杯o3,以及小杯o3 mini
具体成绩如下⬇️
1️⃣ ARC-AGI测试中(图 2)
o3 在low版本下的得分是上一代o1的三倍,high版本下的o3拿到了 87.5% 的得分 ,作为对比,普通人的的分数是 70-80%🥲(这个low和high可以理解为高性能和低性能,对应是high版本就是低效率模式,low版本则是高效率模式)
2️⃣ EpochAI的Frontier Math测试中(图 3)
o3解决了25.2%的问题,过去任何模型的解决率都未超过2% 😮💨
3️⃣ 在编程Codeforces测试中(图 3)
o3获得了惊人的 2727分,甚至超越了OpenAI首席科学家的2665分 (这个成绩在人类里排第 150 名)
5️⃣ 在AIME 2024 测试中(图 4)
o3得分接近了满分,为96.7%,之前o1 只有 83%
6️⃣ 在博士难度的GPQA Diamond测试中(图 5)
o3的得分为87.7%,得分远超人类专家水平
是不是很厉害,觉得马上就能完全代替人?
很遗憾,o3 有个致命问题:成本💰
虽然OpenAI很鸡贼的故意在跑分图上没有标明成本
但他们的合作方ARC给捅出来了(人家原来谷歌的,肯定搞你openAI啊)
他的blog里面有两张截图(图 5、6)
我们可以发现,o3 low版本一个任务要花费超过十美元
o3high版本,解决一个任务要超过一千美元的成本
搞笑的是🤣
OpenAI要求对o3 低效率(o3high)成本保密
但ARC说了个倍数,低效率的成本是高效率的 172 倍,那就意味着一个任务要 20*172=3440 美元💵
一个任务 3440 美元!?谁疯了用这么贵的东西Σ(゚д゚;)
目前o3 模型处于“预览”状态,仅向通过链接申请的安全人员开放。 o3 mini 将支持 o1 支持的所有功能,计划1月底上线。
PS:新模型叫o3而不是o2,是因为o2存在版权问题,只能叫o3了