即刻App年轻人的同好社区
下载
App内打开
GitHub充电宝
8月前
月之暗面 Moonshot AI 正式开源了 Kimi-Audio,可以帮助我们解决处理音频时来回切换不同工具的痛点。

它是一款开源音频基础模型,基于 Qwen 2.5-7B 构建,可以统一处理音频理解、生成和对话任务。

依托 1300 万小时音频数据预训练,通过混合输入(离散语义标记 + 连续声学特征)与创新架构,统一多种任务。

Kimi-Audio 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、情感识别(SER)、声音分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。

主要功能
• 语音识别 (ASR):在AISHELL-1上字错误率(WER)仅 0.60%,优于 Whisper 和 Paraformer
• 多任务音频理解:声音分类、情感识别、音频问答任务,表现出色
• 端到端语音对话:支持情绪、口音、语速等个性化控制
• 高效流式生成:使用 BigVGAN 声码器和分块流机制(look-ahead),延迟低至毫秒级
• 开源评估工具包:Kimi-Audio-Evalkit 提供标准化评估,覆盖 ASR、AQA、SER 等任务

GitHub:github.com
模型 HuggingFace:huggingface.co
03

来自圈子

圈子图片

AI探索站

101256人已经加入