理想发布下一代自动驾驶架构MindVLA,助力物理智能体实现空间智能与逻辑推理突破

段落一:
3月18日,理想汽车自动驾驶技术负责人贾鹏在英伟达GTC 2025大会上发表了主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》。他分享了理想汽车对下一代自动驾驶技术MindVLA的最新思考和进展。贾鹏提到:“MindVLA是一种机器人大模型,成功整合了空间智能、语言智能和行为智能。一旦实现物理世界与数字世界的结合,将为更多行业赋能。MindVLA将把汽车从单纯的运输工具转变为贴心的专职司机,具备听懂指令、识别环境和找到目标的能力。”

段落二:
基于端到端和VLM双系统架构的最佳实践,以及对前沿技术的敏锐洞察,理想提出了全新的VLA模型——MindVLA。MindVLA被认为是机器人大模型的新范式,赋予自动驾驶强大的3D空间理解能力、逻辑推理能力和行为生成能力。它不仅感知环境,还能思考和适应环境变化。所有模块经过全新设计,其中3D空间编码器通过语言模型和逻辑推理结合,输出一组Action Token(动作词元),并通过扩散模型优化驾驶轨迹。

段落三:
MindVLA采用六大关键技术,打破传统自动驾驶技术框架。首先,使用3D高斯作为中间表征,提升多粒度、多尺度3D几何表达能力,并利用海量数据进行自监督训练。其次,从零开始设计适合MindVLA的LLM基座模型,采用MoE混合专家架构和稀疏注意力机制,确保模型规模增长时不影响端侧推理效率。此外,加入未来帧预测和稠密深度预测等任务,增强模型的空间智能。

段落四:
为了进一步提升逻辑推理能力,理想训练LLM基座模型学习人类的快慢思考过程,并实现自主切换。同时,为充分发挥NVIDIA Drive AGX性能,MindVLA采用小词表结合投机推理和并行解码技术,显著提高实时推理速度。通过Diffusion模型将Action Token解码成优化轨迹,并联合建模自车行为和他车轨迹预测,提升复杂交通环境中的博弈能力。

段落五:
面对长尾场景,理想建立人类偏好数据集,并应用RLHF(基于人类反馈的强化学习)微调模型采样过程,使MindVLA能够学习和对齐人类驾驶行为,显著提升安全性。MindVLA基于自研的重建+生成云端统一世界模型,深度融合三维场景还原和新视角补全能力,构建接近真实世界的仿真环境。通过大规模闭环强化学习,实现从“错误中学习”的目标。

段落六:
过去一年,理想团队完成了大量工程优化,显著提升了场景重建与生成的质量和效率。通过创新性预训练和后训练方法,MindVLA展现出卓越的泛化能力和涌现特性,不仅在驾驶场景下表现优异,还具备一定的室内环境适应性和延展性。

段落七:
MindVLA将重塑用户体验,为用户提供听得懂、看得见、找得到的专职司机体验。用户可以通过语音指令改变车辆路线和行为,例如寻找超市或调整驾驶速度。MindVLA具备强大的通识能力,能识别商店招牌,甚至根据用户发送的照片自动找到位置。此外,车辆可以自主漫游地库、园区和公共道路,完成停车等任务,完全依赖于MindVLA的空间理解和逻辑推理能力。

段落八:
总结而言,MindVLA将汽车从单纯的驾驶工具转变为能与用户沟通、理解意图的智能体。对于汽车行业,MindVLA如同iPhone 4重新定义手机一样,将重新定义自动驾驶。对于人工智能领域,汽车作为物理人工智能的最佳载体,未来探索出物理世界与数字世界的结合范式,有望赋能多个行业的协同发展。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...