再也不用4S/8S AI视频拼贴匠了?浙大的新视频生成框架已经能够直接生成10分钟的AI视频了!?而且角色还连续?😮 (问就是等开源🥹)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequences
🧐MovieDreamer是一种创新的长视频生成框架,通过将自回归模型与扩散渲染技术相结合,实现了复杂叙事结构的长时间视频生成,特别适合电影制作,解决了传统方法在长视频生成中的一致性和复杂性问题。
➡️链接:
aim-uofa.github.io✨重点
●🎥 层次化生成框架:MovieDreamer采用了一个分层的生成框架,首先通过自回归模型对全局叙事进行预测,生成视觉token序列。随后,这些token通过扩散渲染转换为高质量的视频帧。这个过程类似于电影制作中的场景捕捉,能够逐步生成具有复杂故事情节的视频内容。
●🖼️ 关键帧生成与扩展:MovieDreamer通过生成关键帧来作为长视频生成的锚点。这些关键帧不仅为后续视频的生成提供了基础,还保证了生成内容的逻辑一致性和视觉连续性。这种方法使得MovieDreamer能够生成超长的视频内容,而不仅仅是简单的循环视频片段。
●📜 多模态脚本增强:为了进一步提高视频生成的连贯性,MovieDreamer引入了多模态脚本,这些脚本不仅包含了场景描述,还详细描述了角色信息和视觉风格。通过这些脚本,模型能够更好地理解和生成具有一致性和复杂性的长视频,确保角色身份在多个场景中的连续性。
●🔄 角色身份保持:MovieDreamer在生成长时间视频时,能够在零样本的情况下保持角色身份的一致性。这意味着,即使在没有大量数据或样本的情况下,模型也能准确再现角色的外貌和行为特征,保持角色在不同场景和时间段中的统一性。
●🏆 超越现有技术:与现有的长视频生成方法相比,MovieDreamer不仅在生成内容的长度上实现了显著突破,而且在视觉和叙事质量上也达到了更高的标准。通过大量实验验证,MovieDreamer在各种电影类型中都表现出色,生成的内容不仅具有更高的质量,而且更加丰富多样。
●⚙️ 与现有模型的兼容性:尽管MovieDreamer是由大学实验室开发的,资源相对有限,但它仍然展示了与当前一些高质量封闭源视频生成模型的兼容性。这种灵活性使得MovieDreamer可以利用现有的先进模型来生成具有复杂叙事结构的长视频,进一步提升视频生成的质量和一致性。
●📊 定量评估和结果:MovieDreamer通过定量评估证明了其在生成高质量长视频方面的能力,生成的视频不仅长度超过现有方法,而且质量也远超现有技术标准,展示了强大的叙事和视觉呈现能力。