新型轻量级音频模型问世！1.5B参数挑战 Whisper 与 Qwen2-Audio！

Aero-1-Audio 是一款新型的1.5B参数音频模型，由 LMMs-Lab 开发，基于 Qwen-2.5-1.5B 构建。

训练仅需 16 个 H100 GPU 和 50k 小时音频数据（约 5B 令牌），耗时不到 24 小时。其独特能力是处理长达 15 分钟的连续音频，无需分段，保持上下文连贯性。

核心功能
• 轻量模型体积：仅 1.5B 参数
• 支持长音频：可处理最长 15 分钟连续语音，无需分段，可保持上下文连贯
• 语音识别（ASR）：在语音识别准确率高
• 音频理解：支持复杂音频分析（如语音、音效、音乐）和指令驱动任务

HF模型：https://huggingface.co/lmms-lab/Aero-1-Audio
HF体验：https://huggingface.co/spaces/lmms-lab/Aero-1-Audio-Demo

💫 一个深耕互联网行业的技术宅。  🧣微博同名！

来自圈子

AI探索站