魅族的李楠过来做嘉宾,谈了不少他对 AI 硬件的理解,尤其是他对“下一代可穿戴的 AI 设备”的想像,以及背后的逻辑,值得一听。尝试梳理:
整个3C科技行业有一个关于个人计算设备的预言,这个预言到今天为止一直是有效的。这是当年施乐的一个叫马克·维瑟的工程师提出来的。1991 年,39 岁的马克·维瑟在《科学美国人》发表了一篇文章,叫做《21 世纪的计算机》,提出了普适计算 / 隐形计算(Ubiquitous computing)的概念,并且定义了三种形式的个人计算设备:Boards(尺寸以米计算的大型设备,电视/电脑)、Pads(尺寸以分米计算,手持 Pad)、Tabs(尺寸以厘米计算,可放在兜里,手机)。他还预言了wearable device的崛起以及传感器的无处不在。预言的最终形态是人们只要带着一张脸,就可以随时调用数据和算力。
施乐的这个预言的计算设备的发展路径已经被过去几十年证明了,也是李楠的基本论据。在这个预言里,在 Tabs(手机)和最终形态(人脸)之间,会出现一个过渡的状态,一个比手机更轻、更小、更便宜、更随身的设备。它成为计算中心的理由不是因为算力更高(手机也不是因为算力才成为中心),而是因为它比手机更容易访问。如果存在这样一个设备,它应该是越靠近脸部越好,因为这样会离人类的传感器更近。人类也有天生的传感器,我们的 camera,我们的 microphone,我们的 speaker,都在脸上,所以它应该是一个接近脸的设备。设备上应该装一堆传感器,什么红外可见光+激光+阵列麦,看得比人还清楚,听得比人还清楚,然后喂给大模型获得答案。此时,“作为一个人,我变成了一个低级物种。”
这样看来,这个划时代的下一代颠覆性设备应该满足这样的描述:wearable,离脸近,更轻,更多传感器(always and instantly ready的传感器,重要性被严重低估了),更好的网络连接(以便和AI大模型绑定)。可能的候选形态包括眼镜、耳机、项链、帽子等等。Meta Ray-ban智能眼镜本质上就是一个可拍照的音频眼镜,第一代被用户骂惨了,第二代做了改良,加了阵列麦克风和摄像头,但没做显示,所以能维持重量和一个相对过得去的续航,然后支持一定的AI多模态功能,还支持离线。Meta 还正确地控制了用户的预期,因为它上一代产品的表现很一般,所以其实大家的期待并不高。
如果这样一个 wearable device 被搞出来,很可能三年之内就会取代手机,在大众中的渗透率超过 50%。这里的逻辑是每一代计算设备的渗透速度都在加快,互联网用了几十年,智能手机 6 年(iPhone 渗透率超过50%用了 6 年),所以下一代设备的渗透速度一定更快。至于商业模式,目前还不清楚,但只要对用户有价值,一定可以找到靠谱的变现模式。
李楠认为,当前所谓 “AI 硬件” 涉及到两个矛盾的概念,第一个概念是“+AI”,用老东西加上 AI,比如所谓的录音机加AI,它的短期成功概率更高,更确定,类似种地。第二个概念则是颠覆性的“AI Native”,当软件产生决定性变化的时候,硬件应该从零开始为软件的能力重新设计。这种方法的结果不可预测,像是放羊(当然在人类历史上是反过来的,从游牧文明到农耕文明)。用图片处理来举例子,photoshop 就像是种地,是联合收割机,用的是对象、命令、多窗口等经典方法,而 midjourney 就像是放羊,用的是自然语言,是完全不一样的生产力。
最后,李楠对其他 AI 硬件的评价:
- AI Pin:灾难性的产品,基础体验不好是其次,最重要的是产品定义错了,做了太多的加法。三年以内,所有带显示的AI设备都是要扑街的。
- Rabbit R1:大概率会扑街,它的产品定义不清楚,不能用一句话清晰的说明白。另外,它的革命不彻底,还是基于 GUI 的假设来做交互,用虚拟机来模拟 GUI ,但 GUI 是给人看的,不是给 AI 看的。在 AI 时代需要更加颠覆性的底层解决方案,比如 Stanford 的 Octopus 团队,跳过 GUI 应用层直接写脚本,模型更小,执行效率更高,速度更快,功耗更低。
- Apple Vision Pro:傻逼产品, 太重了。
- Rewind Pendant:已经成功了。产品定义就是 AI+录音机,做 Memory 的记忆和增强, 非常清晰。