填一下之前这个坑(
m.okjike.com)——为什么AI眼镜(
m.okjike.com)仍然需要GUI
站在人机交互的角度(
m.okjike.com),AI带来的最大变化是「交互粒度变粗」。
以前需要细粒度的在好几层视图上点击大量按钮和菜单、做文本输入,乃至要打开多个应用在它们之间流转数据、协同操作。现在只需要用一句话、一次触碰、一个姿态、一个眼神这样的单次粗粒度交互, 就可以达到相同结果。
为了达到相同的结果,AI 不但要理解自然语言和多模态的人类表达方式,还要能感知到多模态的上下文和场景(当前现实环境、软硬件状态、用户个性化信息等),能理解它们(比如世界模型、空间智能),能对虚拟世界和现实世界直接采取行动、施加影响(Tool Use、Computer Use、具身智能)。
传统的现实世界中,原本也是有这种粗粒度交互的——就是跟真人打交道:军官给士兵下命令,客户给服务人员提要求,老板给秘书交代任务,产品经理给工程师提需求、…
真人同样要有「常识」懂黑话、「有眼色」、能「读空气」、有「大局观」、有技能有行动力,才能提供这种「粗粒度」的沟通体验,大家合作愉快。 这种粗粒度交互是大众用户更适应更习惯的,能进一步拉低软件应用的使用门槛,进一步拓宽软件应用的使用场景,是人机交互向「自然交互」的进一步靠拢(
developer-cn.picoxr.com)。
但结合跟真人打交道的经验,大家有没有注意到:这种粗粒度交互很难仅凭一次交互就解决问题。「心有灵犀一点通」是可遇不可求的情况,就算 AI 超越人类智能,仍然有必然存在的客观因素会限制单次粗粒度交互的效果:
1. 信息缺失。
无论如何,发起交互的都是真人(用户)。受限于真人的沟通能力、认知能力,真人在第一次粗粒度交互中,几乎必然会遗漏信息(没表达出来,或自己都没认识到)。
就算像产品经理那样愁白头的写需求文档,也不能保证不经评审、答疑、修改,一次传达到位。
2. 要结合反馈。
很多事情是没法从一开始就明确最终目标和具体预期结果的,需要根据反馈,动态调整和收敛。而有反馈就意味着不止一次交互。
因此,多数情况下,单次粗粒度交互是不够的。
那么接下来,大家有没有注意到另一点:在后续的交互中,「粗粒度」反而经常变得更低效了。
后续的交互,首先是 AI 的输出、真人(用户)的输入。
这种交互是反馈信息,是面向人类的信息。而要让人类能快速清晰的理解,由细粒度信息组成的结构化、多模态的信息(比如图文信息、表格、数据可视化、3D 演示),会比粗粒度的单一模态非结构化信息(比如一句话的文本、冗长的口头语音回答),要好的多。毕竟,面向 AI 的 prompt engineering 可能可以避免,而面向人类的「prompt engineering」(内容表达)是不可能简化的。
然后,是真人的输出(后续指令)、给 AI 的后续输入。
在这些交互中,新增了一块重要的「上下文和场景」——就是刚刚 AI 输出的反馈内容,真人是基于这些反馈,给出下一步指令。那么对真人来说,这时最高效的交互方式,必然需要结合这些结构化、多模态的反馈内容——比如图文和数据可视化内容中的按钮和选项。
因此,在足够多样的 AI 应用中、在足够通用的AI 硬件(包括 AR 眼镜)中,GUI 是必不可少的——因为只有 GUI 才能支持多模态、结构化、细粒度、输出和输入相结合(比如图文输出中夹带按钮选项)的交互方式,而第一次粗粒度交互之后难以避免的后续交互,更适合这种交互方式。
这也是为什么在过去多年的 Chatbot 应用实践中,几乎都出现了 Card UI。
接下来的早期AI 眼镜产品,无论要卖的多便宜,也至少需要这种 Card UI、Card App,否则必然的要么不够实用要么不够通用。
最基本的 Card UI 是跟现实世界割裂的,对设备的光学技术(FOV)、计算能力(环境理解算法)和传感器的要求更低。
好一点的 Card UI 能结合现实世界和周围环境,比如在作为上下文的现实事物「旁边」使用 Card UI。
最理想的还是能超越 Card、能完全融入现实世界的 GUI,也就是包含完整空间能力的空间应用,不过由于客观的技术限制,中短期内,MR 头显会比 AR 眼镜更适合发展这种应用生态。