Fact
XAI发布Grok 3, 从benchmark跑分结果和Andrej评价来看,水平约等于OAI o1 Pro模型(o3分数微弱高于Grok, 但没发布而且OAI也不打算发布了)
训练分为两阶段,第一阶段是100k H100训练122天,第二阶段扩展到200k H100上训练了92天
benchmark上还需要第三方验证,但估计问题不大computer use和知识迁移能力等benchmark XAI并未公布,需等待第三方测评结果
lmsys排名第一,但这个榜反映的是人们的偏好,不是能力的直接映射,主要受益于能力强且响应速度更快
具体应用上,Deep research模式和PPLX Deep research水平相当,不及OAI
定价上Grok 3分为Premium $16/M和SuperGrok $30/M, 分别对标ChatGPT $20/M和$200/M 的订阅
Musk宣布一周后发布语音模式
-------------
解读
XAI 19个月从0到SOTA,展示了模型能力非常快速的改进水平,XAI正式和OAI并列成为第一梯队
XAI 产品定价和估值上都大幅低于OAI,如果OAI GPT-5不能带来显著改进,要么产品订阅量下滑要么下调产品定价,全年总利润承压,下一轮融资也会很困难
幻觉和垂直领域可用性并没有因为规模扩大得到解决