今天用Codex做了个会议记录App,用在Macbook上的,使用MacOS自带的SpeechAnalyzer API做实时转录,然后再用Gemini 3 Flash做整理总结。实时转录的文字乱七八糟,但Gemini 3 Flash很轻松就把一些错误给校正了,尤其是一些术语。
本来还想着是不是连整理总结也变成本地模型,查了一下发现小模型耗用机器资源不少,并且效果也不好保证,还是做LLM API调用更合适。
SpeechAnalyzer只能转录,没办法区分人,要解决的话,还要配合其他模型,总之这么一件事想做好也不容易。回想在学校时曾经尝试用IBM的一款语音识别系统用来识别一些采访录音,准确率可能只有20-30%,短短二十年,技术的演进太快了。
PS:许多软硬件都有语音转录的功能,我这完全是为了研究AI Coding的能力边界和了解一下语音识别相关的技术。大家平时用的比较多的语音转文字的产品都哪些?