一个新的语音输入合成talking head虚拟人的模型,已支持comfyui~!
**GitHub - fudan-generative-vision/hallo: Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation**
🧐HALLO是一种创新的层次化音频驱动视觉合成模型,通过语音输入生成逼真且动态的人像图像动画,采用扩散生成方法和层次化合成模块,实现了更高精度的音频和视觉对齐,显著提升了图像和视频质量、唇同步精度和动作多样性。
➡️链接:
github.com➡️comfyui:
github.com✨重点
●🎤音频驱动: HALLO通过语音音频输入驱动人像动画,突破了传统基于参数模型的限制,实现了端到端的音频驱动视觉合成。
●🔧框架整合: 模型整合了扩散生成模型、基于UNet的去噪器、时间对齐技术和参考网络,确保音频与视觉输出的精确对齐。
●📊自适应控制: 分层音频驱动的视觉合成模块提供了对表情和姿势多样性的自适应控制,使动画个性化和生动化。
●📈综合评估: 通过定性和定量分析,HALLO在图像和视频质量、唇同步精度和动作多样性方面表现出显著提升。
●🎬动画实例: 展示了多个经典电影、虚拟角色和真实角色的动画实例,证明了HALLO在不同应用场景下的有效性。
●📝个性化定制: 研究强调了音频驱动视觉合成在个性化定制中的潜力,适用于不同身份的动画生成需求。
●📥预训练模型: 所有需要的预训练模型都可以从HuggingFace仓库下载,涵盖面部定位、音频分离、动作模块等多个领域。
●🔧安装指南: 提供详细的安装步骤,包括系统要求(Ubuntu 20.04/22.04,Cuda 12.1)和依赖包安装指引。
●🎮推理使用: 通过运行推理脚本并提供源图像和驱动音频,即可生成动画视频,过程简单高效。
🖼️框架与实例:
框架: HALLO模型的核心是一个结合扩散生成和UNet去噪器的架构,集成了时间对齐和参考网络,确保生成的动画与音频输入同步。
荣誉经典电影: 示例包括《穿普拉达的女王》、《绿皮书》、《无间道》等。
虚拟角色: 展示了多个虚拟角色的动画实例。
真实角色: 展示了真实角色的动画实例。
动作控制: 通过对姿势、表情和唇部动作的精细控制,实现高质量的动画效果。
歌唱动画: 通过音频输入生成唱歌动画。
📅研究计划:
推理源码: 推理源码已在GitHub上发布。
预训练模型: 预训练模型已在HuggingFace上发布。
优化推理性能: 持续优化推理性能,特别是针对256x256分辨率的图像。
中文支持: 提升模型对中文普通话的支持性能。
数据准备和训练脚本: 即将发布数据准备和训练脚本。