不是「PC养虾」击败了「AI手机」,而是GUI Agent的用途被搞错了
龙虾之前,手机GUI Agent在国内更受重视,是因为国内的个人电脑普及和桌面互联网软件积累当年被打断,Tool的积累都在手机上
这是迎合现状的产品思维,但AI革命不是产品思维主导而是技术主导,移动互联网上的积累再深厚,其实都可以一夕推翻
Agent虽然「类人」,但更类似专业用户而不是大众用户,根本不需要手机app来降低交互门槛(参考附图),桌面电脑/服务器上的Tool对Agent来说能力更强更全、效率更高(有unix管道、bash脚本、文件系统、HTML/JS、Open API等可以直接用代码做自动化和聚合操作的软件协议)
GUI agent不是没用,而是之前被错误的用来解决另一类Agent的问题(OpenAI和xAI似乎都走了这个弯路,前者靠Codex快追上来了,后者正在推倒重建)
之前的帖子(
m.okjike.com)里提到过「服务器端 AI」和「客户端 AI」这种Agent分类方式,这里说的客户端不是指模型在客户端运行,而是指Tool在客户端运行或涉及客户端交互
从用途角度来描述这两种类型的通用Agent会更清晰:
第一类可以称作「劳动代理」:用于取代传统的人口资源,供应独立劳动力
第二类可以称作「交互代理」,用于增强人类与外部世界(包括软件数字世界)互动的能力
「劳动代理」更适合用coding agent而不是用GUI agent实现。
这种Agent用的Tool更适合基于服务器/桌面软件环境(包括CLI)而不是手机GUI软件环境。
这种Agent就算扩展到移动场景,也是通过机器人,而不是通过用户的个人移动设备。
「交互代理」需要两类Agent产品形态,第一类是最彻底的形态,可以称作「Agentic Web浏览器」,用户通过这种浏览器(User Agent)与外界软件世界互动,通过Web获取Tool和内容,所有Tool、内容乃至客户端状态都聚合在浏览器自身「内部」。
另一类产品形态是所有个人计算设备(包括手机、眼镜/目镜等)的系统全局GUI Agent,能跟用户实时紧密协作,共享同一套外部的Tool环境和客户端状态。
这两类Agent之间还有一个交叉领域:
眼镜/目镜等可穿戴个人计算设备的多模态交互输入能力、GUI Agent的视觉能力和行动能力、机器人的Physical AI能力(含多模态、视觉、行动等),是共通的,只要其中一个需求够强,相关技术就注定会发展,让其他需求也受益