即刻App年轻人的同好社区
下载
App内打开
罗锴
11月前
Google AI 推出了 Lumiere —— 一个专为合成展现真实、多样且连贯动作的视频而设计的文本到视频扩散模型,在视频合成的效果惊人:包括图像到视频的转换、视频修复和风格化生成,超越 runway,pika和 SVD 的产品看来不远了。

为了实现这一点,Google AI 引入了一个时空 U-Net 架构,该架构能够在模型的单次传递中生成整个视频的时间跨度。这与现有视频模型不同,后者通常先合成关键帧,然后进行时间超分辨率处理,这种方法本质上使得实现全局时间一致性变得困难。

通过实施空间和(重要的是)时间的下采样和上采样,并利用预训练的文本到图像扩散模型,Lumiere 学会了在多个时空尺度上处理视频,直接生成全帧率的低分辨率视频。
010

来自圈子

圈子图片

AI探索站

79862人已经加入