之前我们CTO说过这么一个理论:人类接收信息带宽最大的器官是眼睛,人类输出信息带宽最大的器官是嘴巴,所以根据第一性原理,AI原生的人机交互范式是人类看着机器屏幕来说出目标指令。
在讨论人机交互(Human-Computer Interaction, HCI)的时候,考虑人类用户的信息的接收和输出能力是大家都会关注的因素。眼睛确实是人类接收信息的主要器官,具有高效的信息接收和处理能力,所以我们可以一目十行,这就是为什么上个时代中图形用户界面(Graphical User Interface, GUI)成为了主流的计算机交互方式。
同样,嘴巴是人类输出信息的一个高效通道,在当前人与人之间的沟通场景中,面对面对话交流的效率永远是效率最高且最普遍的。和图形界面交互需要我们学习和适应不一样,人类天生就擅长通过谈话来交流信息。
所以在大模型时代,随着多项关键AI技术的突破和进步,人机交互的范式可能会被加速发生改变。
1.NLP:随着大语言模型的发展,硬件更能懂用户想要啥。即使是复杂或含糊的表达,也能快速完成用户的需求和指令,腾讯的一项研究已经证明了这个路径是可行的,未来动动嘴就能买一张电影票和买外卖;
2.ASR:上个时代的语音识别不准且仅限于文本,现在的技术不但能识别语音文本内容,还能区分近场(发声距离3m以内)、远场(发声距离3m以外)、声纹(用户的声音特征)、情绪、多人同时发声同步识别等等。这些会直接影响到用户体验的流畅度和自然度,甚至一些历史妥协产物,例如唤醒词(嘿Siri)会消失,无需唤醒直接下达指令。
3.TTS:语音合成的发展历程是从“非人”到“拟人”,再到“超人”的。过去可能TTS只能发出机械的、没有情感的合成声,但是现在TTS技术已经来到了一个超自然拟人的阶段。未来甚至可能会到达一个超过人类的水平,比如生成超过正常人能发出的声线和气口。当前阶段TTS的突破已经出现了一些经验的feature,比如GPT4和豆包的打电话功足以证明人们对语音对话交互的喜爱。