终于,阿里最强旗舰模型Qwen3-Max-Thinking正式版发布了!
刚刚,Qwen3-Max-Thinking 正式版悄无声息上线聊
没有发布会
也没有奥特曼式的炒作
只是发了一个Blog
之前的 Preview 版虽在 AIME 拿过双满分
但更像个偏科的“做题家”
这次正式版最大的变化
在于它补全了“真正做事”的拼图
参数超万亿(1T)
预训练数据 36T Tokens
硬指标上已把GPQA和LiveCodeBench分数推到了
和GPT-5.2、Gemini 3 Pro同一位置(图2️⃣
相比跑分
我更在意它引入的全新的 Test-Time Scaling(测试时扩展)方案
不同于行业普遍“堆算力、走并行路径”的暴力穷举
新版学会了反思式搜索:
它像人一样,对推理结果进行经验提取和多轮自我迭代
在有限算力内聚焦最有希望的方向
这也让它大幅增强了自主调用工具的原生Agent能力
特别是自适应工具调用能力
可以在复杂任务中动态规划、执行并验证结果
同时模型幻觉也大为降低
输出更接近专业人士水平
为解决真实复杂任务打下基础
为了验证这一点
我做了一个刁钻的测试
我给出了一个含“跨期信息验证 + 逻辑陷阱”的题目(见图3️⃣)
如果是以前的模型
为了讨好用户大概率会顺着诱导
编造数据然后附和遥遥领先
但Qwen3-Max-Thinking思考十几秒后
直接拒绝了我的预设(图4️⃣
给出了极其冷静的纠正:
1️⃣ 拒绝幻觉
它首先指出HF官方从未发布过按模型区分的下载报告
所谓的反超缺乏可验证的官方数据源
它宁愿承认数据不存在
也没有为了满足我的要求去捏造一个数字
2️⃣ 厘清事实
针对Meta抄袭的暗示
它查证了原始报道
指出使用第三方模型辅助训练是行业通用的蒸馏
OpenAI也在用
并不能简单情绪化地解读为抄袭或偷师
3️⃣ 客观推演
最后它通过综合多方信息得出结论
硅谷目前的态度是实用主义
开发者是根据任务需求(如中文场景选Qwen,英文生态选Llama)来选择工具
并不存在意识形态驱动的集体倒戈
而且这次还有一个细节最让我感慨:
UI上搜索按钮消失了(见图5️⃣
因为模型已具备自适应能力
它自己懂什么时候查资料、什么时候调记忆
什么时候写代码
虽然名字叫Thinking
但我觉得它更像在尝试Acting
从 GPT-5.2 到 Qwen3
大家都在解决同一个问题:
如何让 AI 从聊天伴侣变成交付结果的同事
现在看来这个万亿参数的大家伙
已经做好了准备
建议大家去Qwen.chat试一下
记得点一下他的思考过程
品味它的脑回路
PS:Qwen3-Max-Thinking 国内版起步价低至输入 2.5元/百万Token(国际版仅 $1.2),相比GPT-5.2,综合使用成本更是直接便宜了一半以上(立省约 54%),是目前性价比最高的顶尖推理模型。