即刻App年轻人的同好社区
下载
App内打开
Szhans
8月前
🎭 VASA-1:一张照片+一段语音,就能生成超拟真视频?

微软研究院(Microsoft Research Asia )带来了一个精彩的项目展示VASA-1, 它仅凭单人照片和一段语音,就能实时生成超拟真的面部说话视频。

在演示视频中,你不难发现:

👄 精准的唇音同步
😱 生动的面部表情
📽️ 稳定的帧数和流畅性

达到了以假乱真的效果。更精彩之处,这是实时、音频驱动生成的画面。

根据官方最新公布,VASA-1 支持512X 512 视频,每秒45帧的质量输出,这意味着多种实时互动场景的解锁,视频会议、直播、Bots 群聊等都有了新玩法。

不过,VASA-1 目前还没有产品化, 无法上手直接体验。 对技术实现原理,感兴趣的即友,查看这里的论文:www.microsoft.com

⛰️ 后记:

这个技术创新进展令人刮目相看, 看起来和英伟达的audio2face 异曲同工,核心在于音频中的情绪力量。

我们的第一反应可能是Deepfake 的风险如何应对,同时也能想象新的视频创作模式也并非今天的范式了。
01:00
015

来自圈子

圈子图片

AI探索站

79862人已经加入