不仅语音识别，而且自动分离和标记说话人~！
GitHub - MahmoudAshraf97/whisper-diarization: 基于 OpenAI Whisper 的自动语音识别与说话人分离
🧐该项目结合了 OpenAI Whisper 的语音识别能力和声活动检测（VAD）以及说话人嵌入技术，实现了自动语音识别与说话人分离，能够精确识别和标记音频中的不同说话人。
➡️链接：https://github.com/MahmoudAshraf97/whisper-diarization
colab：https://colab.research.google.com/github/MahmoudAshraf97/whisper-diarization/blob/main/Whisper_Transcription_%2B_NeMo_Diarization.ipynb

✨重点
●🗣️ 项目结合了 Whisper 和 MarbleNet，用于处理长音频的语音识别和说话人分离。
●🔧 提供了并行处理的功能，可在有足够显存的设备上同时运行 Whisper 和 NeMo，以加快处理速度。
●🚀 项目支持多种配置选项，如选择设备、指定语言和批量处理，适应不同的使用需求。

🧐躺平AI创作者，跨领域研究者，PhD  ‍💼UCL🇬🇧 | 中国美院🇨🇳 | UIBK🇦🇹 外聘导师

47万名技术爱好者在研究人工智能or“智障”

名技术爱好者在研究人工智能or“智障”

来自圈子

人工智能讨论组