即刻App年轻人的同好社区
下载
App内打开
一泽Eze
8月前
Qwen3 发布后,大部分人都在讨论“这次提升了多少性能”,但忽略了 Qwen3 全系都是混合推理模型,这个关键信号

正如我在图中的思考:

1️⃣ 用户和开发者,都需要混合推理模型
如果模型不能灵活判断问题,会让用户等待大量无意义的垃圾推理时间,还要烧掉开发者大量 tokens 成本。
2️⃣ 灵活推理,离不开模型的内部支持
通过外部手段,需要用笨重的 Multi-Agent 框架才能实现。还可能造因为切换不同模型,造成回答风格、指令遵循的不一致。

混合推理其实能给 AI 开发者省不少成本,想了 3 种应用方法(抛砖引玉):

1️⃣ 根据问题类型,配置是否推理
增加前置的意图识别环节,判断用户问题属于“事实类问题”,还是需要思考的“开放式问题”or 模糊意图,决定是否打开推理模式。
2️⃣ 预测同类任务所需的推理长度,限制推理
回答同一类问题所需的最佳推理长度是接近的,如果思考tokens过多,肯定是出问题了。
混合推理模型可以强制截断 AI 过长的 think 内容:“Stop,已经想的够多了,求直接回答吧”
3️⃣ 根据用户偏好调整思考长度
用户感到疲惫或时间紧迫时,让模型更倾向于更快速的推理,当回应不符合预期时,才开放更多的思考长度上限。

当然更理想的状态是,灵活推理能力能够完全内化到模型本身。
AI 自然地根据对话的流向、问题的性质、功能的需要来自动调整回应深度,提供更佳的综合体验。

所以还是挺值得研究一下怎么用好混合推理的🧐
03

来自圈子

圈子图片

AI探索站

101382人已经加入