WOW！我们可能迎来了一个模型范式的颠覆时刻！前Open

即刻App年轻人的同好社区

下载

Max_means_best

26天前

WOW！我们可能迎来了一个模型范式的颠覆时刻！

前OpenAI的CTOMira的创业公司Thinking Machines刚刚发布了他们的第一个模型：TML-Interaction-Small

是一个276B参数MoE模型（12B激活），官方的定义是：Interaction Models：一种可扩展的人机协作方法

但我看仔细了他们的Blog，它表面上是在讲「Interaction Models」，但真正想说的是：
AI不能一直停留在「你说一句，我回一句」的回合制界面里。

它的核心判断是：现在很多AI产品都在往「autonomous agent」走，也就是你给它一个任务，它自己跑半天。
但Thinking Machines觉得这有个问题：真实工作里，人通常没法一开始就把需求说清楚。

很多好结果来自中途不断纠偏、补充、打断、反馈。现有模型太慢、太回合制，于是人被挤出了协作过程。
所以他们提出的方向是：
把「实时交互」做进模型本身，而不是靠外部脚手架拼出来。

现在很多语音AI系统，本质上是用VAD之类的组件判断「用户是不是说完了」，然后再让模型回答。

Thinking Machines认为这不够，因为判断什么时候插话、什么时候沉默、什么时候根据画面主动提醒，本来就应该是模型能力的一部分。

技术上他们做了几个关键东西。

第一是micro-turn。
传统模型看到的是一串交替token：用户输入、模型输出、用户输入、模型输出。
他们让模型每200ms处理一小段输入和输出，所以音频、视频、文字都可以被拆成连续流。这样「沉默」「重叠说话」「打断」「用户正在犹豫」这些信息不会被丢掉。

第二是interaction model+background model。
前台有一个实时交互模型，负责陪着用户保持对话、感知现场、快速响应。
后台有一个更慢但更强的模型，负责推理、工具调用、搜索、浏览网页之类的重活。两边共享上下文，后台结果出来后，再由前台模型自然地插回对话里。

这个结构其实很像：
一个聪明但反应快的前台搭档，背后还有一个慢一点但能深度干活的研究员。
这比现在很多产品里「等模型憋完一大段」自然很多。

第三是原生多模态。

他们不是先用Whisper转文字、再让LLM理解、再接TTS说话，而是把音频、视频、文本更早地融合进模型里。音频用dMel表示，图像切成40x40patch，再一起进入Transformer。它想解决的是「模型真的在实时看和听」，而不是在消费一堆被外部模块处理过的二手信息。

这个Blog里最有颠覆感的能力有几个：
它能在用户没说完时判断是否该回应。
它能一边听用户说话一边说话，比如实时翻译。
它能感知时间，比如每4秒提醒你呼吸。
它能看视频画面里的变化，然后主动说话，比如数俯卧撑、看到代码里写错了就提醒。
它还能一边跟你说话，一边让后台去搜索、调用工具、生成UI。

官方说它在交互质量和响应速度上表现很好，比如FD-bench V1 turn-taking latency是0.40秒，FD-bench V1.5平均分77.8，高于他们列出的GPT realtime和Gemini live基线。

当然这个benchmark部分可以看，但别完全当真哈。
因为很多新交互能力的评测是他们自己做的内部benchmark。

方向有价值，但还需要外部复现。

我觉得真正的信号是：
AI行业正在从「智能本身」转向「智能怎么进入人的工作流」。

过去大家关心的是模型会不会做题、会不会写代码、会不会长任务。
这篇关心的是：人在真实工作里怎么和AI共处。

这其实是个很大的转向。

因为如果模型只是更聪明，但交互方式还是聊天框，那很多能力会被浪费。
你要先描述清楚任务，等它输出，再纠错，再等它改。
这套流程很像跟一个天才但耳背、反应慢、不能看你屏幕的人合作。

所以Thinking Machines这次真正想解决的，是人怎么重新回到AI协作过程里。

因为未来最好的AI产品，未必是把人踢出去的autonomous agent。

也可能是一个一直在场、能看、能听、能插话、能调用后台模型干重活的实时协作者。

他们将在接下来的几个月里，将开放有限的研究预览版以收集反馈意见，并于今年晚些时候进行更大规模的发布。

16 14

来自圈子

科技圈大小事

100万+人已经加入