总结一些 Grok 4 发布的相关信息,就不做测试了,跟主流模型拉不开差距。
包括 Grok 4 和 Grok 4 Heavy 两个模型。
内置了工具链调用能力,支持检索、代码执行、计算器等工具。
256K 上下文窗口,支持文本、图像、结构化数据输入。
预训练阶段相较 Grok 3 提升约 10 倍。Grok 4 reasoning 在 RL 阶段再 提升 10 倍。
APP 现在三个会员等级:
基础会员现在只能免费用 Grok3 了
SuperGrok 300 美金一年,支持 128K 上下文的 Gork4,语音和视觉输入。
SuperGrok Heavy 3000 美金一年,可以抢先体验新功能,使用 Grok 4 Heavy 模型。
API同步推出: Grok 4模型,输入 3美元、输出 15 美元,输出价格接近 o3 的两倍,太贵了。
基准测试结果上:
Humanity’s Last Exam(2500 题,100+ 学科)Grok 4 Heavy + 工具刷到了44.4 %,o3 约为 21%。
AIME25(数学竞赛):Grok 4 Heavy = 100 %(满分)。
USAMO25(数学证明):Grok 4 Heavy = 61.9 %,领先次席 24 pp。
Chest Agent Bench(胸片 Agent 任务):Grok 4 = 72.8 %,行业最高。
Vending-Bench(商业运营模拟):Grok 4 人均净资产 $4694(第 2 名约 $2077)。
未来路线图:
7 月:Grok 4 Release(已完成)。
8 月:Coding Model(代码生成与代理)。
9 月:Multi-modal Agent(统一文本-图像-工具的任务执行)。
10 月:Video Generation Model(视频生成,对标 Sora / Veo)。