即刻App年轻人的同好社区
下载
App内打开
歸藏
5月前
相较于 Open AI 的 Agent 模式,我觉得昨晚最重要的发布是这个

DecartAI 发布了 MirageLSD:世界上首个实时直播视频模型,可以将摄像头的画面实时转换为其他风格和内容的视频。

延迟只有 40 毫秒,而且支持无限长度视频生成!

这里尝试:about.decart.ai

技术报告中最重要的两个部分:

(1)无限生成

问题:传统自回归视频模型因误差累积,生成时长受限,质量迅速下降。

解决方案:
Diffusion Forcing:每帧独立去噪,提升逐帧生成能力。
历史增强(History Augmentation):模型在训练时引入带有伪影的历史帧,学会预期并纠正输入中的缺陷,从而增强对误差漂移的鲁棒性。

效果:首次实现了无限时长、稳定、可控的自动回归视频生成。

(2)实时性能

问题:高质量扩散模型计算量大,传统 GPU 架构难以满足每帧 40 毫秒内生成的低延迟要求。

解决方案:
定制 CUDA Mega Kernels:为 NVIDIA Hopper 架构优化,减少每层延迟并集成 GPU 间通信。
架构感知剪枝:结合模型结构与系统优化,减少每次推理所需的 FLOPs,并利用硬件稀疏性提升效率。
捷径蒸馏(Shortcut Distillation):用小模型学习大模型的去噪轨迹,减少每帧所需的扩散步骤,保证质量和一致性。

效果:响应速度提升 16 倍,实现 24FPS 实时视频生成。
00:31
523

来自圈子

圈子图片

AI探索站

100783人已经加入