总结一些 Grok 4 发布的相关信息，就不做测试了，跟主流

即刻App年轻人的同好社区

下载

歸藏

5月前

总结一些 Grok 4 发布的相关信息，就不做测试了，跟主流模型拉不开差距。

包括 Grok 4 和 Grok 4 Heavy 两个模型。
内置了工具链调用能力，支持检索、代码执行、计算器等工具。
256K 上下文窗口，支持文本、图像、结构化数据输入。
预训练阶段相较 Grok 3 提升约 10 倍。Grok 4 reasoning 在 RL 阶段再提升 10 倍。

APP 现在三个会员等级：

基础会员现在只能免费用 Grok3 了
SuperGrok 300 美金一年，支持 128K 上下文的 Gork4，语音和视觉输入。
SuperGrok Heavy 3000 美金一年，可以抢先体验新功能，使用 Grok 4 Heavy 模型。

API同步推出： Grok 4模型，输入 3美元、输出 15 美元，输出价格接近 o3 的两倍，太贵了。

基准测试结果上：

Humanity’s Last Exam（2500 题，100+ 学科）Grok 4 Heavy + 工具刷到了44.4 %，o3 约为 21%。
AIME25（数学竞赛）：Grok 4 Heavy = 100 %（满分）。
USAMO25（数学证明）：Grok 4 Heavy = 61.9 %，领先次席 24 pp。
Chest Agent Bench（胸片 Agent 任务）：Grok 4 = 72.8 %，行业最高。
Vending-Bench（商业运营模拟）：Grok 4 人均净资产 $4694（第 2 名约 $2077）。

未来路线图：

7 月：Grok 4 Release（已完成）。
8 月：Coding Model（代码生成与代理）。
9 月：Multi-modal Agent（统一文本-图像-工具的任务执行）。
10 月：Video Generation Model（视频生成，对标 Sora / Veo）。

6 10

来自圈子

AI探索站

101379人已经加入