即刻App年轻人的同好社区
下载
App内打开
Max_means_best
05:15
WOW!我们可能迎来了一个模型范式的颠覆时刻!

前OpenAI的CTOMira的创业公司Thinking Machines刚刚发布了他们的第一个模型:TML-Interaction-Small

是一个276B参数MoE模型(12B激活),官方的定义是:Interaction Models:一种可扩展的人机协作方法

但我看仔细了他们的Blog,它表面上是在讲「Interaction Models」,但真正想说的是:
AI不能一直停留在「你说一句,我回一句」的回合制界面里。

它的核心判断是:现在很多AI产品都在往「autonomous agent」走,也就是你给它一个任务,它自己跑半天。
但Thinking Machines觉得这有个问题:真实工作里,人通常没法一开始就把需求说清楚。

很多好结果来自中途不断纠偏、补充、打断、反馈。现有模型太慢、太回合制,于是人被挤出了协作过程。
所以他们提出的方向是:
把「实时交互」做进模型本身,而不是靠外部脚手架拼出来。

现在很多语音AI系统,本质上是用VAD之类的组件判断「用户是不是说完了」,然后再让模型回答。

Thinking Machines认为这不够,因为判断什么时候插话、什么时候沉默、什么时候根据画面主动提醒,本来就应该是模型能力的一部分。

技术上他们做了几个关键东西。

第一是micro-turn。
传统模型看到的是一串交替token:用户输入、模型输出、用户输入、模型输出。
他们让模型每200ms处理一小段输入和输出,所以音频、视频、文字都可以被拆成连续流。这样「沉默」「重叠说话」「打断」「用户正在犹豫」这些信息不会被丢掉。

第二是interaction model+background model。
前台有一个实时交互模型,负责陪着用户保持对话、感知现场、快速响应。
后台有一个更慢但更强的模型,负责推理、工具调用、搜索、浏览网页之类的重活。两边共享上下文,后台结果出来后,再由前台模型自然地插回对话里。

这个结构其实很像:
一个聪明但反应快的前台搭档,背后还有一个慢一点但能深度干活的研究员。
这比现在很多产品里「等模型憋完一大段」自然很多。

第三是原生多模态。

他们不是先用Whisper转文字、再让LLM理解、再接TTS说话,而是把音频、视频、文本更早地融合进模型里。音频用dMel表示,图像切成40x40patch,再一起进入Transformer。它想解决的是「模型真的在实时看和听」,而不是在消费一堆被外部模块处理过的二手信息。

这个Blog里最有颠覆感的能力有几个:
它能在用户没说完时判断是否该回应。
它能一边听用户说话一边说话,比如实时翻译。
它能感知时间,比如每4秒提醒你呼吸。
它能看视频画面里的变化,然后主动说话,比如数俯卧撑、看到代码里写错了就提醒。
它还能一边跟你说话,一边让后台去搜索、调用工具、生成UI。

官方说它在交互质量和响应速度上表现很好,比如FD-bench V1 turn-taking latency是0.40秒,FD-bench V1.5平均分77.8,高于他们列出的GPT realtime和Gemini live基线。

当然这个benchmark部分可以看,但别完全当真哈。
因为很多新交互能力的评测是他们自己做的内部benchmark。

方向有价值,但还需要外部复现。

我觉得真正的信号是:
AI行业正在从「智能本身」转向「智能怎么进入人的工作流」。

过去大家关心的是模型会不会做题、会不会写代码、会不会长任务。
这篇关心的是:人在真实工作里怎么和AI共处。

这其实是个很大的转向。

因为如果模型只是更聪明,但交互方式还是聊天框,那很多能力会被浪费。
你要先描述清楚任务,等它输出,再纠错,再等它改。
这套流程很像跟一个天才但耳背、反应慢、不能看你屏幕的人合作。

所以Thinking Machines这次真正想解决的,是人怎么重新回到AI协作过程里。

因为未来最好的AI产品,未必是把人踢出去的autonomous agent。

也可能是一个一直在场、能看、能听、能插话、能调用后台模型干重活的实时协作者。

他们将在接下来的几个月里,将开放有限的研究预览版以收集反馈意见,并于今年晚些时候进行更大规模的发布。
03

来自圈子

圈子图片

科技圈大小事

100万+人已经加入