伟大无需多言…
OpenAI今天正式发布了其最新的模型——大杯o3,以及小杯o3 mini。
先说缺点,最高版推理一个任务完成,几千美元的成本…
同样是期货,等着上线吧(到时候还是尊贵的plus Pro会员能使用mini)
遥遥领先,无需多言,转下Max的成绩总结:
1️⃣ ARC-AGI测试中
o3 在low版本下的得分是上一代o1的三倍,high版本下的o3拿到了 87.5% 的得分 ,作为对比,普通人的的分数是 70-80%🥲(这个low和high可以理解为高性能和低性能,对应是high版本就是低效率模式,low版本则是高效率模式)
2️⃣ EpochAI的Frontier Math测试中
o3解决了25.2%的问题,过去任何模型的解决率都未超过2% 😮💨
3️⃣ 在编程Codeforces测试中
o3获得了惊人的 2727分,甚至超越了OpenAI首席科学家的2665分 (这个成绩在人类里排第 150 名)
5️⃣ 在AIME 2024 测试中
o3得分接近了满分,为96.7%,之前o1 只有 83%
6️⃣ 在博士难度的GPQA Diamond测试中
o3的得分为87.7%,得分远超人类专家水平
通往AGI的路上,已经没有阻碍……?
(压力给到了Anthropic…)