新型轻量级音频模型问世!1.5B参数挑战 Whisper 与 Qwen2-Audio!
Aero-1-Audio 是一款新型的1.5B参数音频模型,由 LMMs-Lab 开发,基于 Qwen-2.5-1.5B 构建。
训练仅需 16 个 H100 GPU 和 50k 小时音频数据(约 5B 令牌),耗时不到 24 小时。其独特能力是处理长达 15 分钟的连续音频,无需分段,保持上下文连贯性。
核心功能
• 轻量模型体积:仅 1.5B 参数
• 支持长音频:可处理最长 15 分钟连续语音,无需分段,可保持上下文连贯
• 语音识别(ASR):在语音识别准确率高
• 音频理解:支持复杂音频分析(如语音、音效、音乐)和指令驱动任务
HF模型:
huggingface.coHF体验:
huggingface.co