具身智能大模型GPT-2迎来新突破!国内自变量机器人团队打造全球最大规模端到端统一模型,揭秘机器人manipulation与Scaling Law的奥秘

近日,关于OpenAI旗下企业Physical Intelligence (PI)的一系列报道引发了人们对具身智能大模型的关注,这些模型正引领着机器人时代的变革。在国内,我们也发现了一些走在这一变革前沿的中国公司。据机器之心报道,国内初创公司自变量机器人(X Square)是国内唯一一家从一开始就选择端到端统一大模型技术路线的公司,其技术路线与PI不谋而合。自变量机器人正在训练的Great Wall操作大模型系列的WALL-A在参数规模上已经超过了PI。

今年4月,机器之心曾报道过自变量机器人发布的Demo,展示了其基于自研的端到端统一具身大模型,双臂机器人可以利用低成本硬件完成对不规则物体的精细操作(如抓握、拾取、切割等),以及折叠衣服、冲泡饮料等复杂任务,表现出很高的泛化性能。目前,自变量机器人的模型效果已经达到了令人惊叹的水平,尤其是在处理长序列复杂任务、泛化性和通用性方面。

拉拉链对机器人来说是一个极具挑战的任务,需要机器人不仅依靠位置控制来完成微小拉链头的插入,还要精确对齐滑块与链齿,并应对布料变形带来的干扰,准确判断拉链的咬合状态以及处理布料卡住等异常情况。织物操作是操作任务中最困难和复杂的任务之一,需要机器人识别并理解柔性物体的拓扑结构,对模型的感知和理解能力要求极高。

自变量机器人团队通过单一的大模型来驱动端到端的机器人manipulation,探索了机器人“Scaling Law”。目前,这家成立不到一年的中国初创企业已经开发出了世界上最大规模的端到端统一具身大模型“WALL-A”,并在多个维度上超过了所有已知模型。自变量机器人认为,随着模型的不断迭代,机器人领域的“ChatGPT”时刻可能会在不久的将来到来。

近日,自变量机器人接受了机器之心的采访,介绍了他们在技术边界探索和机器人浪潮下的思考。WALL-A是世界上最大规模的端到端统一具身大模型,能够在多个维度上超过已知的所有模型。从任务复杂度层面,它可以完成拉拉链、扣扣子、整理衣物等精细、随机且涉及复杂拓扑结构的任务;从通用性和泛化性层面,它可以使用极少的样本完成各种物理环境变量、动作模式的泛化和迁移。

自变量机器人将WALL-A定义为机器人领域的“大统一”模型,实现了端到端的纵向统一和任务的横向统一。与大语言模型、多模态大模型以及之前的机器人模型相比,统一具身模型的技术方向完全不同,具有更高的数据工程要求。自变量机器人的技术团队由创始人兼CEO王潜和联合创始人兼CTO王昊领导,他们在机器人和大模型领域都有深厚背景。

自变量机器人认为,端到端和统一模型是解决机器人manipulation问题的唯一路径。从2016年开始,王潜就认定端到端是解决manipulation问题的唯一可行路径,因为manipulation涉及的物理过程的复杂性远超其他任务。任何分层分步的方法都很难彻底解决问题,因为每一步都会引入不可控的噪声。

关于“机器人领域的Scaling Law”,王潜和王昊认为,数据质量、数据多样性和数据量是关键因素。数据质量对模型的影响极大,好的数据可能几千条甚至几百条就能有明显效果,而差的数据即使几千万条也可能让模型越训练越差。自变量机器人选择在2023年底成立公司,是因为通用机器人发展的主要瓶颈在于智能而非硬件,而ChatGPT的出现为机器人领域带来了新的希望。

自变量机器人的目标是“将人类从繁琐的体力劳动中解放出来”,他们选择了轮式机器人作为产品形式,认为在大多数室内环境中,轮式机器人已经足够满足需求。未来,自变量机器人将通过技术赋能其他产品,推动行业的持续良性发展。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...