Eleven v3 来啦!!!
稳定性:模型更可靠,用户偏好评分更高
准确性:在数字、符号和技术符号方面的错误减少了68%
以下是如何改进数字处理的示例:"+49 170 9876543"
改进前:"plus forty-nine, one hundred seventy, nine million..."(加四十九,一百七十,九百万...)
改进后:"plus four nine, one seven zero, nine eight seven..."(加四九,一七零,九八七...)
说明:改进后的版本会逐位读出数字,而不是将数字组合成更大的数值来读,这对于电话号码等需要准确传达每个数字的场景更加实用。
v3 跟之前版本的主要区别:
v2 系列(比如 Multilingual v2)已经很逼真了,主要擅长自然、一致性强的朗读。但 v3 真正把 AI 语音从“读文章”升级到了“表演”级别,它对情感、语调、节奏、非语言声音的理解和控制深度高了很多,特别适合需要戏剧性、角色感、对话感的场景(有声书、游戏、短剧、配音、AI 代理对话等)。这次主要改进 & 新功能(重点看正式版带来的变化)
Audio Tags(音频标签)
你可以在文本里直接插入 [标签] 来精确导演 AI 的表演,比如:
[excited] 哇塞太酷了!
[whispers] 你知道秘密吗...
[sighs] 唉,又要加班了
[laughs] 哈哈哈哈你太逗了
[coughs] 咳咳,继续说
标签能控制情绪、语气、语速、停顿、甚至加非语言音效(叹气、笑、咳嗽等),让输出非常有“人味”和层次感。以前基本靠描述性提示,现在像写剧本一样直接指挥。
Dialogue Mode / Text to Dialogue API
支持多角色对话一次性生成!
你可以写成脚本格式(标明谁在说话),AI 会自动处理自然轮流、打断、节奏变化、情绪互动,生成一段完整的多人对话音频。非常适合播客、短剧、有声小说、AI 客服模拟等。
语言支持暴增到 70+ 种
覆盖了绝大部分高需求语言,而且在非英语里也保留了很强的情感表现力(以前很多语言比较“平”)。
更深层的文本理解 & 表现力自动处理重音、抑扬顿挫、情感潜台词更好
动态范围更大(从超级平静到极度激动都能驾驭)
出 alpha 后:更稳定、更准、延迟更低(尤其在流式/实时对话场景)
x.com
x.com