🎭 VASA-1:一张照片+一段语音,就能生成超拟真视频?
微软研究院(Microsoft Research Asia )带来了一个精彩的项目展示VASA-1, 它仅凭单人照片和一段语音,就能实时生成超拟真的面部说话视频。
在演示视频中,你不难发现:
👄 精准的唇音同步
😱 生动的面部表情
📽️ 稳定的帧数和流畅性
达到了以假乱真的效果。更精彩之处,这是实时、音频驱动生成的画面。
根据官方最新公布,VASA-1 支持512X 512 视频,每秒45帧的质量输出,这意味着多种实时互动场景的解锁,视频会议、直播、Bots 群聊等都有了新玩法。
不过,VASA-1 目前还没有产品化, 无法上手直接体验。 对技术实现原理,感兴趣的即友,查看这里的论文:
www.microsoft.com⛰️ 后记:
这个技术创新进展令人刮目相看, 看起来和英伟达的audio2face 异曲同工,核心在于音频中的情绪力量。
我们的第一反应可能是Deepfake 的风险如何应对,同时也能想象新的视频创作模式也并非今天的范式了。