Google AI 推出了 Lumiere —— 一个专为合成展现真实、多样且连贯动作的视频而设计的文本到视频扩散模型，在视频合成的效果惊人：包括图像到视频的转换、视频修复和风格化生成，超越 runway，pika和 SVD 的产品看来不远了。

为了实现这一点，Google AI 引入了一个时空 U-Net 架构，该架构能够在模型的单次传递中生成整个视频的时间跨度。这与现有视频模型不同，后者通常先合成关键帧，然后进行时间超分辨率处理，这种方法本质上使得实现全局时间一致性变得困难。

通过实施空间和（重要的是）时间的下采样和上采样，并利用预训练的文本到图像扩散模型，Lumiere 学会了在多个时空尺度上处理视频，直接生成全帧率的低分辨率视频。

🍎苹果骨灰粉  🤖AIGC观察者  👨🏻‍🎤科技爱好者  🅥 ㍿养成系MCN联合创始人  大概率是个庸才，懂的太少，说得太多

来自圈子

AI探索站