即刻App年轻人的同好社区
下载
App内打开
dexteryy
2月前
填一下之前这个坑(m.okjike.com)——为什么AI眼镜(m.okjike.com)仍然需要GUI

站在人机交互的角度(m.okjike.com),AI带来的最大变化是「交互粒度变粗」。
以前需要细粒度的在好几层视图上点击大量按钮和菜单、做文本输入,乃至要打开多个应用在它们之间流转数据、协同操作。现在只需要用一句话、一次触碰、一个姿态、一个眼神这样的单次粗粒度交互, 就可以达到相同结果。

为了达到相同的结果,AI 不但要理解自然语言和多模态的人类表达方式,还要能感知到多模态的上下文和场景(当前现实环境、软硬件状态、用户个性化信息等),能理解它们(比如世界模型、空间智能),能对虚拟世界和现实世界直接采取行动、施加影响(Tool Use、Computer Use、具身智能)。

传统的现实世界中,原本也是有这种粗粒度交互的——就是跟真人打交道:军官给士兵下命令,客户给服务人员提要求,老板给秘书交代任务,产品经理给工程师提需求、…
真人同样要有「常识」懂黑话、「有眼色」、能「读空气」、有「大局观」、有技能有行动力,才能提供这种「粗粒度」的沟通体验,大家合作愉快。 这种粗粒度交互是大众用户更适应更习惯的,能进一步拉低软件应用的使用门槛,进一步拓宽软件应用的使用场景,是人机交互向「自然交互」的进一步靠拢(developer-cn.picoxr.com)。

但结合跟真人打交道的经验,大家有没有注意到:这种粗粒度交互很难仅凭一次交互就解决问题。「心有灵犀一点通」是可遇不可求的情况,就算 AI 超越人类智能,仍然有必然存在的客观因素会限制单次粗粒度交互的效果:

1. 信息缺失。
无论如何,发起交互的都是真人(用户)。受限于真人的沟通能力、认知能力,真人在第一次粗粒度交互中,几乎必然会遗漏信息(没表达出来,或自己都没认识到)。
就算像产品经理那样愁白头的写需求文档,也不能保证不经评审、答疑、修改,一次传达到位。

2. 要结合反馈。
很多事情是没法从一开始就明确最终目标和具体预期结果的,需要根据反馈,动态调整和收敛。而有反馈就意味着不止一次交互。

因此,多数情况下,单次粗粒度交互是不够的。

那么接下来,大家有没有注意到另一点:在后续的交互中,「粗粒度」反而经常变得更低效了。

后续的交互,首先是 AI 的输出、真人(用户)的输入。
这种交互是反馈信息,是面向人类的信息。而要让人类能快速清晰的理解,由细粒度信息组成的结构化、多模态的信息(比如图文信息、表格、数据可视化、3D 演示),会比粗粒度的单一模态非结构化信息(比如一句话的文本、冗长的口头语音回答),要好的多。毕竟,面向 AI 的 prompt engineering 可能可以避免,而面向人类的「prompt engineering」(内容表达)是不可能简化的。

然后,是真人的输出(后续指令)、给 AI 的后续输入。
在这些交互中,新增了一块重要的「上下文和场景」——就是刚刚 AI 输出的反馈内容,真人是基于这些反馈,给出下一步指令。那么对真人来说,这时最高效的交互方式,必然需要结合这些结构化、多模态的反馈内容——比如图文和数据可视化内容中的按钮和选项。

因此,在足够多样的 AI 应用中、在足够通用的AI 硬件(包括 AR 眼镜)中,GUI 是必不可少的——因为只有 GUI 才能支持多模态、结构化、细粒度、输出和输入相结合(比如图文输出中夹带按钮选项)的交互方式,而第一次粗粒度交互之后难以避免的后续交互,更适合这种交互方式。

这也是为什么在过去多年的 Chatbot 应用实践中,几乎都出现了 Card UI。
接下来的早期AI 眼镜产品,无论要卖的多便宜,也至少需要这种 Card UI、Card App,否则必然的要么不够实用要么不够通用。

最基本的 Card UI 是跟现实世界割裂的,对设备的光学技术(FOV)、计算能力(环境理解算法)和传感器的要求更低。
好一点的 Card UI 能结合现实世界和周围环境,比如在作为上下文的现实事物「旁边」使用 Card UI。
最理想的还是能超越 Card、能完全融入现实世界的 GUI,也就是包含完整空间能力的空间应用,不过由于客观的技术限制,中短期内,MR 头显会比 AR 眼镜更适合发展这种应用生态。
22

来自圈子

圈子图片

AI探索站

79985人已经加入