👨💻 刚刚实践下本地 AI 语音识别和转录的工作流,大概了解了下市面上类似工具的架构和原理,分享给大家:
1. 使用 Downie 或者 yt-dl 开源工具下载视频或者博客,转成音频。
2. 使用 Memo AI @FemoHQ ,本地将音频转成文字,基于本地 whisper 的 ggml-large-v3 模型,我设备 M2 Max 运行起来负载不高,处理音频速度很快。(类似的 app 还有 Whisper mate 、MacWhisper,也可以使用开源项目),多种识别模型可自定义。对应开源模型可参考
github.com3. 后续再通过第三方 AI 接口进行文本处理、翻译、其他语言 tts 等。
🔖 总结下来:技术成熟,简单封装就能应用到自己的项目,对于有敏感信息处理的场景更合适,相对更加安全和可控。