清华大学DeeR-VLA框架助力多模态大模型动态推理，大幅降低机器人智能开发中的LLM内存开销4-6倍，打破实验室应用瓶颈。

每日AI快讯7个月前发布 AI部落小助手

530 0 0

清华大学新框架DeeR-VLA助力具身智能走出实验室，大幅降低LLM内存开销

来源：量子位
发布日期：2024年11月30日

计算和存储开销问题迎刃而解

来自清华大学的研究团队设计了一种名为DeeR-VLA的新框架，专门用于优化视觉-语言-动作模型（VLA）的计算和内存开销。该框架通过“动态推理”机制，将大语言模型（LLM）的计算和内存开销平均降低了4-6倍。

动态推理机制详解

DeeR-VLA的工作原理类似于人类的决策系统：对于简单的任务，模型会快速做出决策；而对于复杂的任务，则会进行更深入的思考。通过多出口架构，模型可以在完成足够计算后提前停止，从而避免不必要的计算资源浪费。

在CALVIN机器人操作基准测试中，DeeR-VLA成功将LLM的计算成本减少了5.2-6.5倍，同时将GPU内存使用减少了2-6倍，而性能并未受到影响。

大模型的冗余性问题

近年来，多模态大语言模型（MLLM）的发展使机器人具备了更强的理解和执行能力。通过语言指令和视觉信息的结合，机器人可以完成复杂的任务，如“抓取蓝色物体并放在桌子上”。然而，这些模型在实际应用中面临一个重大挑战：它们需要调用数十亿参数，消耗大量的计算资源。

对于嵌入式机器人平台而言，这是一大难题。GPU内存不足、计算时间长、电池续航短等问题，使得“通用机器人”的梦想难以实现。然而，实际情况是，许多实际应用场景并没有那么复杂。

研究发现与思考

论文作者通过观察发现，大多数任务可以通过较小的模型完成，只有在面对少数复杂场景时，才需要调用完整的大型多模态模型。以Calvin数据集为例，使用24层的OpenFlamingo作为基座模型时，相比于6层的模型，任务完成率仅提高了3.2%，但计算成本却增加了4倍。这表明现有的多模态大模型在处理简单任务时存在明显的冗余性。

因此，如何根据任务的复杂性动态调整模型规模，成为提升机器人智能的关键。

DeeR-VLA的设计理念

DeeR-VLA的核心在于其灵活的动态推理机制，能够根据任务的复杂度智能调节LLM的计算深度。具体来说，DeeR-VLA通过以下关键技术组件实现这一目标：

1. 多出口MLLM结构：将模型划分为多个阶段，每个阶段都可以输出中间结果。任务复杂度达到某个出口的需求时，模型会提前停止计算，避免激活更多层级。
2. 特征池化方法：每个出口的中间特征通过特征池化技术进行压缩，提取核心信息，确保早期退出时仍能生成高质量特征。
3. 动作预测头设计：在每个出口后，模型通过轻量级的动作预测头，将特征转化为机器人的具体执行动作。

此外，DeeR-VLA还引入了动作一致性准则和贝叶斯优化方法，确保模型在不同硬件环境和实时性需求下动态调整计算规模。

实验验证

DeeR-VLA框架在CALVIN长Horizon多任务语言控制挑战（LH-MTLC）基准上进行了评估。结果显示，DeeR-VLA在任务成功率与计算效率之间取得了良好的平衡。与其他最先进的方法相比，DeeR-VLA在任务成功率上保持竞争力的同时，大幅减少了计算资源的消耗。

例如，在D→D设置下，DeeR-VLA以更少的计算量（5.9倍减少的FLOPs）和2倍更低的GPU内存消耗，达到了与RoboFlamingo++相当的性能。

作者简介

该论文的第一作者是清华大学自动化系三年级博士生杨跃，他专注于强化学习、世界模型、多模态大模型和具身智能的研究。另一位第一作者王语霖也是清华大学的博士生。两位作者的导师都是黄高教授。

– 论文链接：[https：//arxiv.org/abs/2411.02359v1](https：//arxiv.org/abs/2411.02359v1)
– 代码和模型链接：[https：//github.com/yueyang130/DeeR-VLA](https：//github.com/yueyang130/DeeR-VLA)

本文来源：