老黄这个「Agentic AI」和「Physical AI」的分法/称呼挺好的,相当于我之前说的「服务器端AI」和「客户端AI」,但更突出这两种智能的不同定位——
服务器端的「Agentic AI」侧重主动「思考」,提供是「大脑级」的、「独立」的劳动力
客户端的「Physical AI」无论装在机器人里还是戴在人头上,都侧重对物理世界的直觉理解和下意识反应(实时翻译本质上也是不需思考的下意识反应),是「小脑级」的、「被动」的,它本身不是「独立」的劳动力,而是一种肉身躯壳或感官增强,让附身进去的云端AI(Agentic AI)或它附着的人类(多模态可穿戴个人计算设备的用户)成为更强大的劳动力
Agentic AI + Physical AI = Embodied AI,才是能主动直接影响物理世界的 AI 劳动力
Physical AI 的重点在于多模态和世界模型
Google、xAI、Meta、字节这几家是最重视世界模型和多模态的,其中除了 xAI 是为了搞 3A 游戏和人形机器人(特斯拉 Optimus),其他几家也都有下一代个人计算设备业务
宇树这种似乎只能算做脑干和神经系统的
智驾场景的 Physical AI,还有两个重点是端到端和人类数据:
目前国内的「高端智驾」已经从以前的激光雷达+高精地图+人工编程的非泛化 L4,发展到特斯拉路线的、基于「一段式端到端」的泛化 L2,比如地平线 HSD、Momenta R6、华为 ADS 4,不过好像都是多传感器数据在神经网络内部搞鸟瞰空间/体素占据空间的显式表征,输出的是鸟瞰轨迹,而不像特斯拉 FSD 那样直接输出动作(最终驾驶指令),训练也更多靠基于模拟物理环境的强化学习,而不像特斯拉那样基于人类数据(有飞轮,有规模效应,能受益于 Supervised self-driving)
其中 Momenta 的人类数据比较多,把多传感器作为可选添加而不是必须,感觉是在向特斯拉 FSD 靠拢,长期会有优势
特斯拉的车端模型没有LLM就已经达到4B规模,体现出在训练时学到了隐式世界模型和大量几何/拓扑表征
而国内厂商即使用 VLA 模型(有 LLM)都没这么大,可能说明缺乏对物理世界的直接理解