本地 GPU 运行的通用具身智能模型 Helix

知名机器人初创公司 Figure AI 在本周四晚公开了其与 OpenAI 终止合作的原因：他们成功开发了自己的通用具身智能模型 Helix。Helix 是一个视觉 – 语言 – 动作（VLA）模型，能够统一感知、语言理解和学习控制，从而克服机器人技术中的多个长期挑战。

Helix 的创新点
1. 全身控制：Helix 实现了类人机器人上半身的高速连续控制，覆盖手腕、躯干、头部和单个手指。
2. 多机器人协作：两台机器人可以使用同一个模型协同工作，完成前所未见的任务。
3. 抓取任何物品：机器人能够捡起从未见过的小型物体，只需遵循自然语言指令。
4. 单一神经网络：Helix 使用一组神经网络权重来学习所有行为，无需任务特定的微调。
5. 本地化运行：这是首个在本地 GPU 上运行的机器人 VLA 模型，具备商业化落地能力。

家庭环境下的挑战与解决方案
家庭环境是机器人技术面临的最大挑战之一，因为其中充满了无数非规则物体。传统方法依赖于专家手动编程或大量演示，成本高昂且难以扩展。Helix 则通过即时泛化能力，利用自然语言指令生成新行为，极大提高了适应性和效率。

Helix 的架构与训练
Helix 是首个「系统 1 + 系统 2」VLA 模型，结合了快速反应的视觉运动策略（S1）和互联网预训练的语言模型（S2）。S1 以 200 Hz 的频率输出精确动作，而 S2 则负责场景理解和语言理解。这种解耦架构允许每个系统在其最佳时间尺度上运行，实现了速度与泛化能力的平衡。

多机器人协同与零样本泛化
Helix 展示了两台机器人使用同一模型进行零样本杂货存放的能力。它们不仅成功操作了全新的货物，还展示了对各种形状、大小和材料的稳健泛化。此外，Helix 能够将自然语言指令如「拿起 [X]」转译成精确的动作命令，处理数千种从未见过的物品。

训练效率与未来展望
Helix 仅用了约 500 小时的高质量监督数据进行训练，这远低于其他 VLA 系统的数据需求。它展示了强大的对象泛化能力和高效的学习机制，为未来大规模实际部署奠定了基础。

本文来源：