老黄这个「Agentic AI」和「Physical AI」

即刻App年轻人的同好社区

下载

dexteryy

7月前

老黄这个「Agentic AI」和「Physical AI」的分法/称呼挺好的，相当于我之前说的「服务器端AI」和「客户端AI」，但更突出这两种智能的不同定位——

服务器端的「Agentic AI」侧重主动「思考」，提供是「大脑级」的、「独立」的劳动力

客户端的「Physical AI」无论装在机器人里还是戴在人头上，都侧重对物理世界的直觉理解和下意识反应（实时翻译本质上也是不需思考的下意识反应），是「小脑级」的、「被动」的，它本身不是「独立」的劳动力，而是一种肉身躯壳或感官增强，让附身进去的云端AI（Agentic AI）或它附着的人类（多模态可穿戴个人计算设备的用户）成为更强大的劳动力

Agentic AI + Physical AI ＝ Embodied AI，才是能主动直接影响物理世界的 AI 劳动力

Physical AI 的重点在于多模态和世界模型

Google、xAI、Meta、字节这几家是最重视世界模型和多模态的，其中除了 xAI 是为了搞 3A 游戏和人形机器人（特斯拉 Optimus），其他几家也都有下一代个人计算设备业务

宇树这种似乎只能算做脑干和神经系统的

智驾场景的 Physical AI，还有两个重点是端到端和人类数据：

目前国内的「高端智驾」已经从以前的激光雷达+高精地图+人工编程的非泛化 L4，发展到特斯拉路线的、基于「一段式端到端」的泛化 L2，比如地平线 HSD、Momenta R6、华为 ADS 4，不过好像都是多传感器数据在神经网络内部搞鸟瞰空间/体素占据空间的显式表征，输出的是鸟瞰轨迹，而不像特斯拉 FSD 那样直接输出动作（最终驾驶指令），训练也更多靠基于模拟物理环境的强化学习，而不像特斯拉那样基于人类数据（有飞轮，有规模效应，能受益于 Supervised self-driving）

其中 Momenta 的人类数据比较多，把多传感器作为可选添加而不是必须，感觉是在向特斯拉 FSD 靠拢，长期会有优势

特斯拉的车端模型没有LLM就已经达到4B规模，体现出在训练时学到了隐式世界模型和大量几何/拓扑表征

而国内厂商即使用 VLA 模型（有 LLM）都没这么大，可能说明缺乏对物理世界的直接理解

3 04

来自圈子

科技圈大小事

100万+人已经加入