具身智能技术的突破与应用:通向AGI的关键路径
具身智能(Embodied AI)是实现通用人工智能(AGI)的必经之路。全球科技公司如特斯拉Optimus、Agility Digit、波士顿动力Atlas和Figure AI等正在加速布局这一领域。今年蛇年春晚,机器人“扭秧歌”成为了人们茶余饭后的热门话题。随着大模型技术的进步,具身智能也迎来了快速发展。然而,在国内企业与高校推动相关技术发展的过程中,核心挑战仍在于如何在有限的数据下使机器人适应复杂场景并实现技能高效迁移。
京东探索研究院发起的创新项目
为了解决上述挑战,京东探索研究院李律松、李东江博士团队发起了一个联合项目,合作伙伴包括地瓜机器人秦玉森团队、中科大徐童团队、深圳大学郑琪团队、松灵机器人及睿尔曼智能吴波团队,并得到了清华RDT团队的技术支持。该项目提出了首个基于三轮数据驱动的原子技能库构建框架,旨在突破传统端到端具身操作的数据瓶颈。该方法通过动态自定义和更新原子技能,结合数据收集与VLA少样本学习,构建高效的技能库。实验表明,该方案在数据效率和泛化能力方面表现出色,成为业内首个面向具身产业应用的数据采集新范式。
研究背景与挑战
具身智能在生成式AI时代迎来重要突破,通过跨模态融合将文本、图像、语音等数据映射到统一的语义向量空间。尽管如此,现实环境的复杂性使得具身操作模型在泛化性上仍面临挑战。端到端训练依赖海量数据,导致“数据爆炸”问题。为此,团队提出了基于三轮数据驱动的原子技能库构建方法,可在仿真或真实环境中减少数据需求。
VLP的作用与能力
从产业落地角度看,具身操作是关键模块。目前,端到端VLA进行高频开环控制,即便中间动作失败,仍输出下一阶段控制信号。因此,VLA在高频控制机器人/机械臂时,强烈依赖VLP提供低频智能控制,以指导阶段性动作生成,并协调任务执行节奏。本文构建了集成视觉感知、语言理解和空间智能的VLP Agent,接收任务指令文本与当前观察图像,生成完整执行计划并指定下一个子任务。
VLA存在的问题及其作用
VLA技术从专用数据向通用数据演进,机器人轨迹数据已达百万级别。尽管端到端任务采集与训练有助于科研算法优化,但在通用机器人应用中,人为定义端到端任务易导致任务穷尽问题。提出的三轮数据驱动的原子技能库方法结合SOTA VLA模型,通过高级语义抽象模块将复杂子任务映射为结构化原子技能,结合数据收集与VLA少样本学习高效构建技能库。
构建原子技能库的重要性与方法
原子技能库的构建旨在降低数据采集成本,同时增强任务适配能力,提升具身操作的通用性,以满足产业应用需求。基于数据驱动的原子技能库构建方法,结合端到端具身操作VLA与具身规划VLP,旨在构建系统化的技能库。面对新任务,若所需技能已在库中,则可直接执行;若缺失,则触发高级语义抽象模块,基于现有技能库进行原子技能定义更新。
实验及结果分析
为了验证所提方法的有效性,团队设计了四个挑战性任务,并在RDT-1B和Octo基准模型上进行了测试。实验结果表明,所提方法在数据利用效率和任务泛化能力上显著优于传统端到端方法。特别是在新任务适应能力方面,所提方法能够通过已有技能组合成功执行不同的新任务。
小结
团队提出的一种基于三轮数据驱动的原子技能库构建框架,旨在解决传统端到端具身操作策略带来的“数据爆炸”问题,为具身智能产业应用提供创新解决方案。该框架具有广泛价值,可用于提升物流仓储、智能制造、医疗辅助等领域的自动化水平,促进学术界与产业界的深度合作,加速具身智能技术的实际应用。
