跟 Humane AI Pin 相比,Rabbit R1 更进一步,从 LLM 的「功能机」发展为「智能机」,貌似具备完整的安卓手机/OS能力,能运行浏览器和现有第三方安卓应用,同时具备了环境感知能力(360 度视觉),使其成为真正的原生 AI Agent 设备,能根据粗粒度的自然语言语音交互和对周围环境的理解,自动调用 web 或 app 完成任务。在大部分原本要找到具体 app 做深层级细粒度交互的场景,可以替代传统手机/桌面设备。
www.rabbit.tech不过这种手机形态的 AI Agent 设备,最大问题还是占用双手/单手。比如在玩主机游戏、在桌面上写文档的过程中,需要停下手头的事情,拿起设备(按按钮、让摄像头面向屏幕)做 AI 交互,丧失了语音交互的很多优点。再比如,LLM 和 AI Agent 的运行就算完全在本地/边缘,也需要一点时间(比如 AI Agent 调用 app 经常涉及服务器端交互,有网络延迟),R1 的视频演示中,这段等待时间里一直举着设备,看着就累…
由此衍生出的另一个问题是,这种「AI 手机」为了减少对双手的占用,通常都会弱化 GUI 交互,只提供最简洁轻量的 GUI 反馈,不支持 GUI 操作,趋向完全依赖语音交互。但语音不是万能的:
1. 在很多场合,用语音交互是很尴尬、缺乏隐私或扰人的。
2. 部分情况下仍然需要细粒度操作,这时候用语音并不高效。
要注意的是,完整的安卓手机/OS能力、环境感知能力,恰好也是 XR 设备原本就具备的。比如 PICO 已上线锤子应用商店,可以安装和运行海量安卓应用,就像 Vision Pro 支持海量 iPad 应用。在环境感知能力方面,手持设备和普通的可穿戴设备,更是无法和 XR 头戴设备相提并论(Vision Pro 有 6 个麦克风、12 个视觉传感器、5个其他传感器)。
前面提到的两个问题,XR 设备都能完美解决:
1. XR 设备不占用双手/单手。比如可以戴着头显/眼镜玩主机游戏,同时用语音向 AI 询问电视屏幕上的谜题应该如何解决。
2. XR 设备不会完全依赖语音交互,是有 GUI 的。XR 设备的 GUI 一方面不需要占用单手/双手去持举,一方面也不受硬件尺寸/重量/位置的限制,能在周围整个环境中对现实做「增强」(比如在现实中的特定位置、特定物体上显示虚拟面板、3D 控件和信息提示),能用身体运动、眼睛、手势等更多自然方式与 GUI 做交互(不需要双手去戳屏幕、敲键盘鼠标)。
希望 XR 产品能尽早解决自己的问题(比如重量),让 AI Agent 尽早摆脱手机形态和聊天应用形态吧。最适合 AI Agent 的软硬件平台还是 XR 头戴设备。
图4、5、6 是之前关于 Humane AI Pin 的讨论。