发现 Minimax 更新了 Speech-02 音频模型
试了一下现在咋这么强!
训的我自己的语音模型我已经分不出来了
你现在拿一段我的音频问我是不是我说的,我都迷糊
👇下面是详细的测试内容:
mp.weixin.qq.comSpeech-02 在Artificial Analysis 的 ELO 评价榜单上吊打 Open AI 和 ElevenLabs 一众海外音频模型。
基本上霸榜了。Hugging Face上,不出意外,也是第一名的成绩。
Speech-02 依旧延续了 01 的传统优势,有丰富的预设音色选择,同时每个音色还有丰富的情感选项,基本上这些已有的音色+情感+其他选项调节能够搞出大部分需要的人设和音色。
我这里整了个小活,找了一个小说中的对话,做了一个类似游戏的小场景,可以看到还是调整出来的还是非常符合人设的,比如 17 岁来应聘男公关的声音和 KTV 故作深沉准备压价的面试官。
之后是 Speech-02 最基本的准确率问题
大家听过 AI 语音的都知道,生僻字读音和多音字读音是非常难得事情,有的时候 AI 读错了真的很出戏。
我这次直接给了一个终极难题,搞了一段连贯的,但是包含非常多生僻字和多音字的内容,真的里面很多字我都得查拼音。
没想到 Speech-02 这次居然一个字都没错,太强了,你可以跟着下面的音频听一下。
这代模型语言多样性也变强了
支持30多个语种;单语种的情绪、音色多样性表现在 01 版本的时候已经很强了,这里整个高难度的多语言混合文案。
里面主体是中文,包含了英语、西班牙语、日语、法语、俄语、德语,文案让 o3 生成的,非常离谱。
没想到 Speech-02 居然生成的还不错,虽然偶尔一两个读音不够特别标准,但已经强的没边了,让人在没准备的情况下读估计能搞定的没几个。
Speech-02 的老牌强势能力 声音参考
我这里上传了我自己的一段语音做了个自己的声音模型,然后找了一段自己之前的其他录音,转成文字之后让 Speech-02 生成了一下,做了个对比。
我找我周围的同事听了一遍,他们没有一个可以听出这是生成的声音,他甚至学到了我的说话停顿节奏和口癖,还有语气词,非常邪门。
下面是两段话的对比,你随便拿出生成的来问我,我要是不记得的话,自己都够呛能分清是不是我说的。
前面看技术报告的时候发现,现在 Speech-02 声音和语言是解耦的,也就是说可以用经过声音参考后的模型去生成别的语种的音频。
这里我随便找了一段英文推特文案让自己的模型读了一下,哈哈,真的有我自己读英语的那个味道,停顿节奏、语气也都能对上,这下是不是录视频的时候可以用字幕转英文视频内容了。
上面就是这次测试的全部内容了,期待那个通过提示词自定义音色的功能早日全量上线,感觉应用场景非常广泛。
音频内容生成一直是AI领域中较被低估的一环,但实际上它的重要性不可忽视。在日常生活中,我们有相当多的时间只能通过听觉来获取信息;而在视频创作中,高质量的音频同样是决定内容质量的关键因素。
MiniMax敏锐地抓住了这一市场需求,通过持续迭代已经在技术表现上超越了ElevenLabs和OpenAI等国际平台。