月之暗面 Moonshot AI 正式开源了 Kimi-Audio，可以帮助我们解决处理音频时来回切换不同工具的痛点。

它是一款开源音频基础模型，基于 Qwen 2.5-7B 构建，可以统一处理音频理解、生成和对话任务。

依托 1300 万小时音频数据预训练，通过混合输入（离散语义标记 + 连续声学特征）与创新架构，统一多种任务。

Kimi-Audio 支持语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、情感识别（SER）、声音分类（SEC/ASC）、文本到语音（TTS）、语音转换（VC）和端到端语音对话。

主要功能
• 语音识别 (ASR)：在AISHELL-1上字错误率（WER）仅 0.60%，优于 Whisper 和 Paraformer
• 多任务音频理解：声音分类、情感识别、音频问答任务，表现出色
• 端到端语音对话：支持情绪、口音、语速等个性化控制
• 高效流式生成：使用 BigVGAN 声码器和分块流机制（look-ahead），延迟低至毫秒级
• 开源评估工具包：Kimi-Audio-Evalkit 提供标准化评估，覆盖 ASR、AQA、SER 等任务

GitHub：https://github.com/MoonshotAI/Kimi-Audio
模型 HuggingFace：https://huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

💫 一个深耕互联网行业的技术宅。  🧣微博同名！

来自圈子

AI探索站