英伟达团队提出了一种全新的机器人训练方法——DexMimicGen,仅需5次人类演示,即可生成1000个新的示例。这项技术由李飞飞的高徒与徒孙联手研发,显著提高了机器人在仿真环境中的任务成功率。
仿真任务成功率最高达97%
英伟达实验室开发的DexMimicGen解决了机器人训练数据不足的问题。通过5次人类演示,DexMimicGen可以生成1000个新的示例。这些生成的数据用于训练机器人,使其在仿真环境中的任务成功率高达97%,甚至超过了使用真实人类数据的效果。
生成式数据解决机器人数据难题
英伟达科学家范麟熙(Jim Fan)表示,这种机器训练机器的方法解决了机器人领域最大的痛点——数据收集。他预测,未来机器人数据和学习流程都将采用生成式方法。
李飞飞高徒与徒孙联手
DexMimicGen的三位共同第一作者均为李飞飞的“徒孙”,来自德克萨斯大学奥斯汀分校(UT奥斯汀)助理教授朱玉可(Yuke Zhu)的实验室。这三位华人学者目前都在英伟达研究院实习。
5次演示生成1000条数据
DexMimicGen可以通过5次人类演示生成1000个新的示例。在实验中,研究团队设置了9个场景,涵盖了3种机器人形态,进行了60次演示,生成了21000多个示例。在仿真环境中,使用DexMimicGen生成的数据训练的机器人在整理抽屉任务中的成功率达到76%,而使用真实人类数据的成功率仅为0.7%。对于积木组装任务,成功率从3.3%提升至80.7%。罐子分类任务的成功率更是高达97.3%。
真实环境中的表现
在真实环境中,DexMimicGen生成的数据同样表现出色。例如,在易拉罐分拣任务中,仅使用40个生成示例,成功率就达到了90%,而不用生成数据时的成功率为零。此外,DexMimicGen还展示了跨任务的泛化能力,使训练出的策略在不同任务上表现良好。
DexMimicGen的工作原理
DexMimicGen基于MimicGen系统改进而来,主要针对双臂机器人灵巧操作任务。它引入了并行、协调、顺序三种子任务类型,并设计了相应的执行机制。系统通过采集和分割人类示范数据,生成新的示例。在生成过程中,DexMimicGen随机化模拟环境中物体的位置和姿态,并选择一个人类示范作为参考。生成的示例经过多次迭代,最终用于训练模仿学习策略。
团队介绍
DexMimicGen的共同第一作者包括UT奥斯汀的三位华人学生:博士生Zhenyu Jiang(本科清华大学)、硕士生Yuqi Xie(本科上海交通大学和美国密歇根大学联培)、博士生Kevin Lin(本科和硕士分别就读于UC伯克利和斯坦福)。项目负责人还包括英伟达的研究科学家Ajay Mandlekar和范麟熙(Jim Fan),以及朱玉可的其他团队成员。
本文来源: 量子位【阅读原文】