一款刚开源的新型高保真 TTS 模型:Zonos。
无论是快速生成特定情绪的语音,还是精准地模拟特定人的语音,它都能轻松搞定。
而且它不同于其他 TTS 模型,虽然大部分训练数据为英文,但还有大量的中文、日语等其他语言,在中文的支持性上要好一些。
目前提供了两种1.6B模型—Transformer 和 SSM,其中 SSM 模型是首个可用于TTS(文本到语音)的开源模型,它凭借其独特的结构,使得语音生成的质量和多样性更上一层楼。
核心亮点
• 高保真语音克隆:通过输入5到30秒的语音样本进行高保真的语音克隆。
• 多语言支持:支持英语、日语、中文、法语和德语。
• 情绪调节与语音定制:提供了多种语音定制选项,包括音高、语速、音质和情绪等方面。
• 前缀匹配与说话人定制:通过添加文本和音频前缀,能实现更精细的说话人匹配效果。
• 超高性能与实时生成:在性能方面表现得非常突出,特别是在 RTX 4090 显卡上运行时,实时率约为2倍。
• 内置简易界面:Zonos 内置了一个易于使用的 gradio 界面,用于生成语音。
开源不到5天,已经在 GitHub 上收获了 1.1k 标星。
GitHub:
github.com模型:
huggingface.co