基于大模型的播客后期Agent,目标不是做个网页端的剪辑工具,而是用历史节目和AU工程文件里的剪辑习惯做了训练数据,用微调过的模型去理解对话,去掉冷场,口癖,口误,无关沟通,保留主播必要的气口和表达习惯(比如老高的“对吧”就会适当保留,但是连续说十个肯定给他掐了)。而且可以在录音中用召唤词直接指挥后期(后期老师:前面这块不要了,我重说;后期老师:前面“华为”俩字给我哔掉)。
整个项目用了三天编码,全AI编程,加上训练时间用了半个月左右。除了大模型调用,可以全本地部署,大模型建议国内的话用Qwen3➕微调,足够壕的话,大模型也可以本地跑。但是需要播客有历史工程文件留存,剪辑完就留个mp3文件的主播,就只能用通用规则,不能训练自己的习惯了。
目前回测结果,大概能做到人类剪辑老师80分的标准,大多数节目可以跑完直接上传,不用再做任何人工剪辑。但是如果涉及节目的声音设计,音色修饰,结构性剪辑,那么显然还是AI做不到的。
节后逐步向声湃托管用户开放内测,声湃录音间也会陆续放一个设备过去,做录音时的baseline采集和实时策略生成,可以直接利用RODE调音台的特性,把录音提示直接送到耳返(刚才说的这段我帮你做了事实核查,雷军没有80岁,只有56岁,一会你补录下;好像冷场了?你可以问嘉宾这个问题...),所以如果在录音间录音,最后编辑效果会更好一点。
开发过程中用到了阿里云的OSS、实时音视频和云百炼大模型服务,以及金山云的模型代理服务,感谢金山云的调用额度赠送 💰
声湃和津津乐道今年的目标仍然是,降低播客表达的门槛,让每个人都能利用这个媒介去积累自己的个人品牌和信任力,剩下的事情我们来负责解决。