接上条,再聊聊单图驱动和视频驱动这两种模式的优缺点。
————————————————————————
单图驱动优势:
明显用户成本比视频驱动低。
视频驱动优势:
1. 多视角一致性会更好,因为显式建模了人脸的3D结构。
比如单图驱动的人脸在不同的角度,可能五官和配饰,头发会发生位移。
2. 头发、胡子等高频信息的时序一致性更好。VASA-1本质是单图生成,生成的头发、胡子细节有肉眼可见的抖动。
3. 可控性强:这种视频驱动方案是和3DMM的mesh绑定的,理论上可以直接控制人头的转动、情绪变化,并有利于二次编辑;而大模型GAN方案的情绪控制、头部运动很难直接控制,或有直观的解释
4. 速度快:Synthesia这种3D方案,应该能达到100-400fps,且支持任意高清分辨率的生成;VASA-1这种大模型或GAN的方案,一般帧率不会高于40fps,而且分辨率上升后,模型推理压力会大很多,帧率下降明显。
附Synthesia效果。