重磅:Meta AI 推出Text 2 Speech 的全新模型,语音创作世界开启新魔法
Voicebox 是首个具有最先进性能、可跨任务泛化的语音生成AI模型,其自动去噪、小样本定制、多语种(跨物种)生成等超能力都令人无比振奋~
🦜 要点导读:
- 首个任务泛化的语音模型。何为泛化? 它是指一个模型能够处理和它原来训练时不同的任务。就像你在学习做加法和减法后,能够自然而然地解决一些涉及这两种操作的复杂数学问题,例如拓展到现实生活中的购物问题。
- 实现自动去噪(替换片段)的能力。Voicebox模型的「语音去噪」功能是通过一种被称为"上下文学习"的技术实现的。它能够理解和生成与给定样本相似的语音。整个语音包含噪音片段(例如狗叫声)时,用户可以将含有噪音的部分剪切下来,让Voicebox模型「重新生成」那个片段。模型会自动补齐,魔法一般。
- 基于小样本的,语言风格定制的超能力。和传统上AI 语音模型不同,我们都是调用预先训练好的特定的语音风格;Voicebox 通过「匹配上下文的语音风格」可以学习和复制一个给定的小语音样本的风格,这包括了语气、语调、口音等。例如,如果你给Voicebox一个两秒钟的语音样本,它就可以学习这个样本的语音风格,然后在生成新的语音的时候,使用相同的语音风格。这就好像你听一个人说话几句,然后尝试模仿他的说话方式一样。
- Voice box 是非自回归模型的重要进展。不同于GPT 等自回归模型——通过训练预料来预测目标结果,依次、连贯、吐出 Token,非自回归模型具有更高速的吞吐能力,效率更高。官方称是其他同类模型 20 倍的速度提升。(相应代价可能会降低一点逻辑性,因此要配合flow matching 来自行矫正,提升准确性和灵活性。)
📖 全文报道如下:
Meta AI研究员们在语音生成AI方面取得了突破。我们开发出了Voicebox,这是首个可以泛化到未经特定训练的语音生成任务,并具有最先进性能的模型。
就像用于图像和文本的生成系统一样,Voicebox可以以各种各样的风格创建输出,并且它可以从零开始创建输出,也可以修改它得到的样本。但是,与创建图片或一段文本不同,Voicebox生成的是高质量的音频剪辑。该模型可以合成六种语言的演讲,以及执行噪音消除、内容编辑、风格转换和多样化样本生成。
在Voicebox之前,语音的生成AI需要为每项任务使用精心准备的训练数据进行特定训练。Voicebox采用了一种新方法,只从原始音频和相应的转录中学习。与音频生成的自回归模型不同,Voicebox可以修改给定样本的任何部分,而不仅仅是给定的音频剪辑的末尾。
Voicebox基于一种名为Flow Matching的方法,已被证明可以改进扩散模型。在零射击文本转语音方面,Voicebox的表现超越了当前最先进的英语模型VALL-E,无论是在可理解性(单词错误率5.9% vs 1.9%)还是音频相似性(0.580 vs 0.681)上,同时速度提高了20倍。在跨语言风格转换方面,Voicebox的性能超过了YourTTS,将平均单词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。
Voicebox取得了新的最先进的结果,其单词错误率优于Vall-E和YourTTS。
Voicebox在英语和多语言基准测试中也取得了新的最先进的音频风格相似性度量结果。
生成性语音模型有许多令人兴奋的用例,但由于滥用的潜在风险,我们目前并没有公开提供Voicebox模型或代码。虽然我们认为与AI社区开放交流和分享我们的研究成果以推动AI技术的发展非常重要,但也需要在开放性和责任性之间找到正确的平衡。考虑到这些因素,今天我们分享了音频样本和一篇详述我们的方法和取得的成果的研究论文。在论文中,我们还详述了我们如何构建一个高效的分类器,可以区分真实的语音和使用Voicebox生成的音频。
语音生成的新方法
现有语音合成器的主要限制之一是,它们只能在专门为该任务准备的数据上进行训练。这些输入,也就是单调、干净的数据,难以生成,所以它们只存在于有限的数量,而且它们产生的输出听起来单调。
我们基于Flow Matching模型构建了Voicebox,这是Meta在非自回归生成模型方面的最新进展,可以学习高度非确定性的文本和语音之间的映射。非确定性映射很有用,因为它使Voicebox能够从各种不同的语音数据中学习,而无需精心标记这些变化。这意味着Voicebox可以在更多样化的数据和更大规模的数据上进行训练。
我们用超过50,000小时的公共领域有声读物的录音和转录在英语、法语、西班牙语、德语、波兰语和葡萄牙语中训练了Voicebox。Voicebox被训练用于预测当给定周围的语音和段落的转录时的语音段落。通过学习从上下文中填充语音,模型可以将此应用于语音生成任务,包括在音频录音中间生成部分,而无需重新创建整个输入。
这种通用性使Voicebox能够在各种任务中表现良好,包括:
- 在上下文中的文本转语音合成:使用仅有两秒长的输入音频样本,Voicebox可以匹配样本的音频风格,并将其用于文本转语音生成。未来的项目可以通过为无法说话的人提供语音,或者让人们自定义非玩家角色和虚拟助手使用的声音,来利用这一能力。
- 跨语言风格转换:给定一个语音样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本,Voicebox可以生成该语言的文本朗读。这一能力令人兴奋,因为未来它可以用于帮助人们以自然、真实的方式交流——即使他们不会说相同的语言。
- 语音去噪和编辑:Voicebox的在上下文中的学习使其擅长生成语音,以无缝地编辑音频录音中的段落。它可以重新合成被短时间噪音(如狗吠)损坏的语音部分,或者替换错误的单词,而无需重新录制整个演讲。人们可以识别哪个原始的语音段落被噪音(如狗吠)破坏,剪裁它,并指示模型重新生成那个段落。这种能力有朝一日可以用来使清理和编辑音频变得像流行的图像编辑工具调整照片一样简单。
- 多样化的语音采样:Voicebox学习了各种野生数据,因此可以生成更具代表性的人们在现实世界中以及上述六种语言中交谈的语音。将来,这种能力可以用于生成合成数据,以帮助更好地训练语音助手模型。我们的结果显示,接受Voicebox生成的合成语音训练的语音识别模型的表现几乎与接受真实语音训练的模型一样好,错误率降低1%,而不是之前的文本转语音模型生成的合成语音的45%至70%。
负责任地分享生成AI研究
作为首个成功执行任务泛化的多功能、高效模型,我们相信Voicebox可以开启语音生成AI的新时代。和其他强大的新AI创新一样,我们认识到这项技术带来了滥用和意外伤害的可能性。在我们的论文中,我们详述了我们如何构建了一个高效的分类器,可以区分真实的语音和使用Voicebox生成的音频,以减轻这些可能的未来风险。我们认为,公开我们的工作很重要,以便研究社区可以在其基础上构建,并继续我们正在进行的如何负责任地构建AI的重要对话,这就是为什么我们在一篇研究论文中分享我们的方法和结果。
Voicebox代表了生成AI研究的一个重要步骤。其他可扩展的具有任务泛化能力的生成AI模型已经引发了对文本、图像和视频生成任务的潜在应用的兴奋。我们希望看到语音在未来有类似的影响。我们期待继续在音频领域进行探索,并看到其他研究者如何在我们的工作基础上进行建设。(Fin)
更多音频样本和案例,参见官方报道:
ai.facebook.com🌳延伸阅读:
AIGC 近期炫酷应用的商业地图(生态视角)
m.okjike.com