这是今天下午在Podfest 2024大会上为任宁老师做的音频AI替身。这个替身是采用声湃二次开发、训练和微调的,专门为中文播客准备的语音引擎生成的,
与通用模型不同,这个模型利用了在声湃托管并授权给我们的几万小时的语音,先让AI理解中文播客主播的表达习惯,再用特定主播的音色结合而来的。所以听上去更像是一个“播客”,而不是通用模型听上去更像是“新闻”或者“有声书”。
目前这个技术还在完善中,但是似乎可以帮助主播先做一些体验了,比如让替身去帮你补录一些内容、录个片花啥的。而如果想要让它录制整个节目,可能还差了许多。而我们也在探索帮助苦于“单口录音”的主播们生成一个“AI捧哏”。
而从产品角度讲,这个技术路径其实是在OpenAI的技术线上,所以将来也可能被更好更新的AI能力所替代。但是我们能做到的,是能让这个模型使用更便宜、更符合播客内容的创作习惯。另外就是授权和技术伦理问题,我们想要确保所有的AI产出都不能被滥用,也不要利用未授权的内容来训练它,这就导致了我们的进度可能会比较慢。
无论如何,欢迎大家来找我尝试这个技术,只需要你30分钟左右的干净语音音频,就能有一个专属于你的“嘴替”了。