前几天和朋友聊起一个single channel source separation算法方向的项目,是一个约为手掌大小的设备,可以识在极度嘈杂环境下的分离呼救声,并自动报警。其用的算法确实很强大,可以在离线设备上进行本地实时的解析,并准确识别出掩盖在强背景噪声之下的特定音段。
但是朋友说了一句:这个场景真的需要离线计算吗?第一,哪个类似KTV、舞厅的嘈杂环境没wifi,或者手机信号?第二,如果连手机信号都没有,离线识别成功以后如何报警?这么一想,tmd这个场景是不是一个麦克风+信号传输+云端运算就可以完成了,为啥要费这么大的劲去做离线运算呢。。。
好算法,还得有好场景才行。
然后出于好奇,我又去翻了一翻这方向的论文。22年的AAAI有一篇SFSRNET,已经能把SNR推到22DB的水平了。这个效果真的棒,比我们当年在10DB附件挣扎的效果真的好太多太多了。
技术进步真的不可阻挡,各位AI同路人共勉呀。昨天百岁老人基辛格告诉我们,AI是各个大国都在寻找下一个能够主导世界的东西。所以少年们,为国研究AI的时刻到啦,冲啊。