o3 太强了,ARC-Prize六月宣布的时候大家还嘲笑目前LLM的无能为力,参见图一倒数第二的 GPT-4o
结果现在o3“高烧钱模式”在 semi-private 测试集上准确率达到了 87.5%(超过人类水平,85%),见图二(来自出题人)
我看了下排第二的 solution 是利用 Claude Sonnet 3.5 的搜索算法,让 LLM 生成 python 程序解题,精心设计了复杂的 prompt。作为对比,看看 o3 的 prompt,“高端的食材只需要简单的烹饪”(图 3,来自这个 prize 的 president)
总之这个进展是非常夸张的,第一和第二的对比我感觉类似当年 AlexNet @ ImageNet competition