25 年出现了 2 个偏离大模型主航道的研究,它们的共同点是特别契合物理世界的规则:
1. dLLM(gemini diffusion):主流 LLM 是线性的自回归模型,这意味着 LLM 在进行 "思考"(next token prediction)时只能沿着第一个方向推进,引入 CoT 也更像是通过 "采样/best of N" 来亡羊补牢。相比之下,dLLM 可以在最终生成完成前,通过 "全局 denoising" 来不停地迭代思考的逻辑。这种非线性的、可反复迭代修正的模式更接近人脑的工作方式
2. 自回归生视频模型(genie3):genie3 的工作方式是基于 "已有帧+user input" 去预测并生成下一帧,为降低误差,它会在内部维持一份随时间演化的 "世界状态"(物体/位置/相机或角色运动/遮挡等),并按 user 的 input 推进世界。这天然对应了我们可感知的物理世界的连续性、局部因果性和路径依赖。相比之下,Veo3 等 diffusion 模型更偏 "一次性整段合成",状态一致性通常不如自回归来得自然
假如,我是说假如,赛博世界和物理世界存在某种映射,那未来的模型会不会演化成:
- 模拟人脑的部分用 diffusion
- 模拟世界的部分用 auto regression
甚至 diffusion 和 auto regression 会不会在某一个时间点融合?