清华大学开源全球最大的双臂机器人智能模型RDT,具备调酒遛狗等多功能,荣登Hugging Face具身智能热榜榜首

今天,世界见证了 RDT 大模型的诞生,这一模型如同“小脑”一般,负责控制机器人的运动。无需人类干预,RDT 能够指挥机器人双臂协同工作,完美调制出如晚霞般梦幻的鸡尾酒 Malibu Sunset。和人类调酒师一样,RDT 首先将冰块稳稳倒入高脚杯中,动作流畅自如。倒完冰块后,RDT 依次倒入椰子酒、橙汁、菠萝汁,操作熟练,确保口味一致。随后,RDT 注入石榴汁,晚霞般的酒红色在高脚杯中缓缓晕开。最后,RDT 用空间感夹起一片柠檬,轻轻卡在有弧度的杯口上,非常漂亮!

同行们纷纷赞叹:有了十亿参数的 RDT,智能机器人时代已经不远了!去酒吧点 RDT 调酒师,赛博朋克感瞬间爆棚。那么,RDT 到底是什么?RDT 的全称是 Robotics Diffusion Transformer,是全球最大的双臂机器人操作任务扩散基础模型,由清华大学人工智能研究院 TSAIL 团队构建。当前,机器人领域的一大难题是“不够智能”。许多模型需要反复教导才能完成单个任务,面对未见过的情况则束手无策。而 RDT 正是破解这一“智能困境”的利器之一。它为 ALOHA 硬件本体植入了“小脑”,使其能够自主完成未曾见过的任务。

RDT 将“小模型”扩展为“大模型”,从“单臂”变为“双臂”,是目前运动控制水平最接近人类的机器人“小脑”之一。更令人惊喜的是,清华团队已将 RDT 的代码、模型及训练数据集彻底开源,他们相信开源 RDT 能极大加速机器人研发和产业化进程。项目主页:https://rdt-robotics.github.io/rdt-robotics 论文链接:https://arxiv.org/pdf/2410.07864 论文RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

值得一提的是,RDT 目前在世界最大的开源模型平台 HuggingFace 的机器人榜单上排名热度第一。在 RDT 模型的支持下,双臂机器人成功挑战了 7 项高难度任务,平均成功率比当前最佳模型高出 56%。接下来,让我们看看 RDT 为双臂机器人带来了哪些高阶功能。

效果展示

1. 灵巧操作:机器人遛狗竟成现实。在 RDT 的指挥下,机器人能灵巧地握住长度不到 2cm 的迷你摇杆,控制机器狗走出完美直线。而其他模型则会导致机器狗走弯路甚至撞墙,控制精度不足。
2. 指令遵循:善解人意的倒水大师。RDT 能充分理解并遵循人类的语言指令,倒 1/3 的水就倒 1/3,倒 2/3 就倒 2/3,分毫不差。RDT 从未见过“1/3”这个词,但凭借泛化性准确理解了其含义。相比之下,其他模型会倒得过多或过少,甚至洒水。
3. 未见物体与场景:自信地与未知共舞。RDT 能轻松应对未见过的杯子和不同装饰的房间,变换任务对象和环境都不在话下。
4. 少量学习:一点就通的高材生。教会 RDT 叠衣服只需演示 1 遍,而其他模型需要重复几十遍才能勉强学会。

初识 RDT:智能飞跃的秘密

相比其他机器人模型,RDT 为何如此智能?相比同行最优水准领先多少?三个“最大”是 RDT 实现智能飞跃的关键:

– 最大的模型参数量:RDT 拥有 1.2B 参数,比谷歌、DeepMind 等研发的最大具身扩散模型(Octo,93M)大一个数量级。
– 最大的具身数据集:预训练数据集包含 46 个不同的机器人数据集,总计超过 100 万条人类演示数据。
– 最大的双臂微调数据集:清华团队构建了包含 300+ 任务和 6K+ 条演示的数据集,远超先前由斯坦福、MIT 等研发的具身大模型 OpenVLA 的微调数据集。

解密 RDT:挑战与解决方案

目前的双臂机器人距离实际应用还有一定距离,主要原因在于双臂人类演示数据匮乏,模型泛化能力不足。为了解决这些问题,研究者提出了一种创新的多模态模型架构和统一的物理可解释动作空间。

设计 RDT:双臂机器人操作的新架构

“模仿学习”是当前开发通用机器人模型的主流方法。RDT 采用扩散模型进行建模,以学会多样的动作模式。RDT 的整体架构包括多模态输入编码、网络结构设计和预训练与微调相结合的训练方法。

训练 RDT:预训练与微调相结合

为了在多种机器人数据上进行预训练,研究者构建了一个统一的动作空间,确保模型能够从不同机器人数据中学习到共享的物理规律。在超过 100 万条演示数据上进行预训练后,RDT 获得了无与伦比的泛化性。此外,研究者还采集了高质量的双臂微调数据集,以增强 RDT 的双臂操作能力。

测试 RDT:泛化性与操作精度并举

研究团队设计了 7 个挑战性任务,从不同维度评估 RDT 的泛化能力和操作精度。例如,清洗杯子任务需要双手协调和物体泛化性;遥控机器狗任务需要极高的操作精确性;倒水任务需要理解未见过的环境和语言指令;传递物体和叠裤子任务则仅需少量演示即可学会新技能。

关于作者

该工作的两位共同一作分别是清华大学计算机系的二年级博士生刘松铭和吴凌轩。刘松铭主要研究方向是具身智能和 AI for Science,曾在 ICML 和 NeurIPS 等顶级会议发表多篇论文,获得清华大学本科生特等奖学金。吴凌轩主要研究方向是人工智能安全和具身智能,曾在 ICLR 发表过论文。

直播分享

为了更好地帮助大家了解这项研究,10 月 21 日晚 19:00-20:00,论文作者刘松铭将带来线上直播,为大家进一步解读这项工作。直播间:关注机器之心机动组视频号,立即预约直播!本次直播设有 QA 环节,欢迎加入直播交流群探讨交流。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...