Figure AI 取消和OpenAI的合作后,推出了 Helix 模型。现在能够将抽象命令(如“捡起沙漠物品”)转换为精确的抓取动作,零样本成功操作训练中未见过的物体,并在多机器人协作中使用相同的模型权重。
Helix 是一种开创性的视觉-语言-动作(VLA)模型,它将感知、语言理解和运动控制相结合,使人形机器人能够在非结构化环境中(如家庭)执行复杂且可泛化的任务。这标志着机器人技术的重大进步,提供了前所未有的可扩展性和适应性。
关键创新
全上身控制:
Helix 是首个能够以 200 Hz 高频率控制整个人形上身(35 个自由度)的 VLA 模型,包括手腕、手指、躯干和头部。这使得机器人能够执行精确、流畅的动作,如抓取、操作物体和调整姿势。
零样本多机器人协作:
Helix 可以同时在两台机器人上运行,使它们能够共同解决任务(例如存放杂货),即使这些物体是它们从未见过的。通过自然语言提示(如“把饼干递给右边的机器人”)实现协调。
“捡起任何东西”能力:
装备了 Helix 的机器人可以仅通过自然语言命令(如“捡起沙漠物品”)抓取数千种未见过的家用物品(如玻璃器皿、玩具)。这将互联网规模的语言理解与精确的运动控制联系起来。
单一神经网络:
Helix 使用一个统一的模型(System 2 为 70 亿参数,System 1 为 8000 万参数),无需针对特定任务的微调,避免了为每个任务单独调整的需要。
商业级部署:
Helix 完全在机器人上的低功耗 GPU 上运行,实现实时推理和立即商业应用。
架构:“系统 1 和系统 2”设计
系统 2(S2):一个慢速、高层次的规划器(7-9 Hz),使用互联网预训练的视觉-语言模型(VLM)来解释场景和语言。它将语义目标压缩成一个潜在向量。
系统 1(S1):一个快速、反应性的视觉-运动策略(200 Hz),将 S2 的潜在向量转换为精确的动作。这种解耦设计使 S2 能专注于抽象推理,而 S1 负责实时调整。
训练与效率
数据:使用约 500 小时的高质量遥操作数据进行训练(仅为以往 VLA 数据集的 5%),并通过自动标注的 VLM 生成自然语言指令。
端到端学习:通过回归损失联合优化 S1 和 S2,避免复杂的动作标记化。无需针对特定任务的微调。
流式推理:S2 和 S1 在独立的 GPU 上异步运行,模仿训练中的时间偏移,确保实时性能。
www.figure.ai