豆包其实就做到很多了 还带降噪。推理时间段能力就一般啊  总不能要求5秒出结果能力对标dsv4吧

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。

这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。

它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。

这样就可以让用户和 AI 在任意模态下实时进行交互：

你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。

核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：

前台交互模型：

(a) 一直在线，一直在听、看和读用户提供的内容
(b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出
(c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应

后台推理模型：

(a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务
(b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容

用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

详情：https://thinkingmachines.ai/blog/interaction-models/

产品设计师、模型设计师、 不会代码的独立开发者。  关注人工智能、LLM 、 Stable Diffusion 和设计。

来自圈子

AI探索站