即刻App年轻人的同好社区
下载
App内打开
GitHub充电宝
8月前
新型轻量级音频模型问世!1.5B参数挑战 Whisper 与 Qwen2-Audio!

Aero-1-Audio 是一款新型的1.5B参数音频模型,由 LMMs-Lab 开发,基于 Qwen-2.5-1.5B 构建。

训练仅需 16 个 H100 GPU 和 50k 小时音频数据(约 5B 令牌),耗时不到 24 小时。其独特能力是处理长达 15 分钟的连续音频,无需分段,保持上下文连贯性。

核心功能
• 轻量模型体积:仅 1.5B 参数
• 支持长音频:可处理最长 15 分钟连续语音,无需分段,可保持上下文连贯
• 语音识别(ASR):在语音识别准确率高
• 音频理解:支持复杂音频分析(如语音、音效、音乐)和指令驱动任务

HF模型:huggingface.co
HF体验:huggingface.co
03

来自圈子

圈子图片

AI探索站

101234人已经加入