🎭  VASA-1：一张照片+一段语音，就能生成超拟真视频？

微软研究院（Microsoft Research Asia ）带来了一个精彩的项目展示VASA-1， 它仅凭单人照片和一段语音，就能实时生成超拟真的面部说话视频。

在演示视频中，你不难发现：

👄 精准的唇音同步
😱 生动的面部表情 
📽️ 稳定的帧数和流畅性

达到了以假乱真的效果。更精彩之处，这是实时、音频驱动生成的画面。 

根据官方最新公布，VASA-1 支持512X 512 视频，每秒45帧的质量输出，这意味着多种实时互动场景的解锁，视频会议、直播、Bots 群聊等都有了新玩法。 

不过，VASA-1 目前还没有产品化， 无法上手直接体验。 对技术实现原理，感兴趣的即友，查看这里的论文：https://www.microsoft.com/en-us/research/project/vasa-1/

⛰️ 后记：

这个技术创新进展令人刮目相看， 看起来和英伟达的audio2face 异曲同工，核心在于音频中的情绪力量。 

我们的第一反应可能是Deepfake 的风险如何应对，同时也能想象新的视频创作模式也并非今天的范式了。

ex腾讯，创始人，理性乐观派  研究🧠Mind心智、🎮Reality ⁺ 边界和✍🏻创作者经济；  以认知科学破译AI，以生物学洞察世界「复杂性」

来自圈子

AI探索站