清华大学新框架DeeR-VLA助力具身智能走出实验室,大幅降低LLM内存开销
来源:量子位
发布日期:2024年11月30日
计算和存储开销问题迎刃而解
来自清华大学的研究团队设计了一种名为DeeR-VLA的新框架,专门用于优化视觉-语言-动作模型(VLA)的计算和内存开销。该框架通过“动态推理”机制,将大语言模型(LLM)的计算和内存开销平均降低了4-6倍。
动态推理机制详解
DeeR-VLA的工作原理类似于人类的决策系统:对于简单的任务,模型会快速做出决策;而对于复杂的任务,则会进行更深入的思考。通过多出口架构,模型可以在完成足够计算后提前停止,从而避免不必要的计算资源浪费。
在CALVIN机器人操作基准测试中,DeeR-VLA成功将LLM的计算成本减少了5.2-6.5倍,同时将GPU内存使用减少了2-6倍,而性能并未受到影响。
大模型的冗余性问题
近年来,多模态大语言模型(MLLM)的发展使机器人具备了更强的理解和执行能力。通过语言指令和视觉信息的结合,机器人可以完成复杂的任务,如“抓取蓝色物体并放在桌子上”。然而,这些模型在实际应用中面临一个重大挑战:它们需要调用数十亿参数,消耗大量的计算资源。
对于嵌入式机器人平台而言,这是一大难题。GPU内存不足、计算时间长、电池续航短等问题,使得“通用机器人”的梦想难以实现。然而,实际情况是,许多实际应用场景并没有那么复杂。
研究发现与思考
论文作者通过观察发现,大多数任务可以通过较小的模型完成,只有在面对少数复杂场景时,才需要调用完整的大型多模态模型。以Calvin数据集为例,使用24层的OpenFlamingo作为基座模型时,相比于6层的模型,任务完成率仅提高了3.2%,但计算成本却增加了4倍。这表明现有的多模态大模型在处理简单任务时存在明显的冗余性。
因此,如何根据任务的复杂性动态调整模型规模,成为提升机器人智能的关键。
DeeR-VLA的设计理念
DeeR-VLA的核心在于其灵活的动态推理机制,能够根据任务的复杂度智能调节LLM的计算深度。具体来说,DeeR-VLA通过以下关键技术组件实现这一目标:
1. 多出口MLLM结构:将模型划分为多个阶段,每个阶段都可以输出中间结果。任务复杂度达到某个出口的需求时,模型会提前停止计算,避免激活更多层级。
2. 特征池化方法:每个出口的中间特征通过特征池化技术进行压缩,提取核心信息,确保早期退出时仍能生成高质量特征。
3. 动作预测头设计:在每个出口后,模型通过轻量级的动作预测头,将特征转化为机器人的具体执行动作。
此外,DeeR-VLA还引入了动作一致性准则和贝叶斯优化方法,确保模型在不同硬件环境和实时性需求下动态调整计算规模。
实验验证
DeeR-VLA框架在CALVIN长Horizon多任务语言控制挑战(LH-MTLC)基准上进行了评估。结果显示,DeeR-VLA在任务成功率与计算效率之间取得了良好的平衡。与其他最先进的方法相比,DeeR-VLA在任务成功率上保持竞争力的同时,大幅减少了计算资源的消耗。
例如,在D→D设置下,DeeR-VLA以更少的计算量(5.9倍减少的FLOPs)和2倍更低的GPU内存消耗,达到了与RoboFlamingo++相当的性能。
作者简介
该论文的第一作者是清华大学自动化系三年级博士生杨跃,他专注于强化学习、世界模型、多模态大模型和具身智能的研究。另一位第一作者王语霖也是清华大学的博士生。两位作者的导师都是黄高教授。
– 论文链接:[https://arxiv.org/abs/2411.02359v1](https://arxiv.org/abs/2411.02359v1)
– 代码和模型链接:[https://github.com/yueyang130/DeeR-VLA](https://github.com/yueyang130/DeeR-VLA)