前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。
这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。
它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。
这样就可以让用户和 AI 在任意模态下实时进行交互:
你可以随时打断它,随时进行补充,AI 会实时关注你的状态,输出结果,不会像之前一样,必须等一句话结束了才能跟模型交互。
核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分:
前台交互模型:
(a) 一直在线,一直在听、看和读用户提供的内容
(b) 每 200 毫秒作为一个节点,同时处理输入并产出一小段输出
(c) 负责照顾用户的在场感,支持用户打断、插话,并能对屏幕和视频内容做出反应
后台推理模型:
(a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务
(b) 交互模型会在合适的时候,将推理模型的结果放回到对话里,不会插入突兀的内容
用户最终看到的结果,就是一个既能实时交互,又能够处理重度任务的界面。
详情:
thinkingmachines.ai