我尝试过几乎所有的 AI 剪辑工具,在口癖的剪辑上都不太可用。这里面有一部分属于技术原因,比如对于文字的识别无法真正精准到音轨的位置,所以剪辑过后会导致半音现象,完全不可听。另外更重要一方面是,当前 AI 无法判断听感,听感是个很玄学的东西,这里面也包含不少的制作人自己的品味。例如很多人在讲话的时候会用 “然后” 作为连接词,可能大部分的 “然后” 都可以被剪掉,但就有部分关键点需要 “然后” 作为连接词。这种包含制作人品味的所谓听感暂时还无法替代。
针对这些其实我有设想过一种 AI 的剪辑方案,即在音频转录文字,并对齐音轨的基础上,对口癖、口水 和 磕巴部分进行用 AI 音频克隆补偿的方式来生成新的音频。不过这种方案对于克隆的音频相似性就有很高的要求了。不过我相信,在未来的一两年,类似 Sora、NotebookLLM 这样的生成工具还不会直接生成高质量的成片,但在音视频的补偿领域,可能已经大量被应用了。
PS: 配图为「硬地骇客」播客使用 Reaper 作为剪辑工具的剪辑点展示。