知名机器人初创公司 Figure AI 在本周四晚公开了其与 OpenAI 终止合作的原因:他们成功开发了自己的通用具身智能模型 Helix。Helix 是一个视觉 – 语言 – 动作(VLA)模型,能够统一感知、语言理解和学习控制,从而克服机器人技术中的多个长期挑战。
Helix 的创新点
1. 全身控制:Helix 实现了类人机器人上半身的高速连续控制,覆盖手腕、躯干、头部和单个手指。
2. 多机器人协作:两台机器人可以使用同一个模型协同工作,完成前所未见的任务。
3. 抓取任何物品:机器人能够捡起从未见过的小型物体,只需遵循自然语言指令。
4. 单一神经网络:Helix 使用一组神经网络权重来学习所有行为,无需任务特定的微调。
5. 本地化运行:这是首个在本地 GPU 上运行的机器人 VLA 模型,具备商业化落地能力。
家庭环境下的挑战与解决方案
家庭环境是机器人技术面临的最大挑战之一,因为其中充满了无数非规则物体。传统方法依赖于专家手动编程或大量演示,成本高昂且难以扩展。Helix 则通过即时泛化能力,利用自然语言指令生成新行为,极大提高了适应性和效率。
Helix 的架构与训练
Helix 是首个「系统 1 + 系统 2」VLA 模型,结合了快速反应的视觉运动策略(S1)和互联网预训练的语言模型(S2)。S1 以 200 Hz 的频率输出精确动作,而 S2 则负责场景理解和语言理解。这种解耦架构允许每个系统在其最佳时间尺度上运行,实现了速度与泛化能力的平衡。
多机器人协同与零样本泛化
Helix 展示了两台机器人使用同一模型进行零样本杂货存放的能力。它们不仅成功操作了全新的货物,还展示了对各种形状、大小和材料的稳健泛化。此外,Helix 能够将自然语言指令如「拿起 [X]」转译成精确的动作命令,处理数千种从未见过的物品。
训练效率与未来展望
Helix 仅用了约 500 小时的高质量监督数据进行训练,这远低于其他 VLA 系统的数据需求。它展示了强大的对象泛化能力和高效的学习机制,为未来大规模实际部署奠定了基础。
