谷歌DeepMind为Gemini Robotics打造先进机器人模型,融合空间推理与多模态大模型理解物理世界

随着人工智能技术的飞速发展,机器人领域也在不断取得突破。近日,谷歌DeepMind推出两款基于Gemini 2.0的机器人模型Gemini Robotics和Gemini Robotics-ER。这两款模型在机器人任务执行、环境感知以及物理世界理解等方面表现出色。

一、Gemini Robotics:多场景适配与灵活操作
Gemini Robotics是一款具备通用性和交互性的机器人模型,其主要特点包括以下几点:

1. 通用性
Gemini Robotics依托于Gemini 2.0的强大世界理解能力,能够快速适应各种新环境和任务。无论是在家庭、办公室还是工厂等不同场景中,该模型都能迅速调整自身以应对未曾遇到的任务挑战。例如,它可以让机器人完成诸如打包餐盒、抓取细小物品(如豌豆)以及用海绵擦除字迹等精细操作。

2. 交互性
借助Gemini 2.0的语言理解能力,Gemini Robotics能够理解和响应多种自然语言指令,并根据用户输入调整行为。例如,当用户要求“帮我把篮球扣进篮筐”时,机器人可以快速找到目标并完成任务。此外,Gemini Robotics还能够持续监测周围环境的变化,并实时调整动作以更好地与人类协作。

3. 灵巧性
Gemini Robotics擅长处理复杂的多步骤任务,例如折纸这种需要高精度操作的工作。

4. 适应性
该模型能够适配不同形态的机器人,其训练数据主要来源于双臂机器人平台ALOHA 2,但同样适用于其他类型的机器人,如Franka机械臂双臂平台或Apptronik开发的人形机器人Apollo。

二、Gemini Robotics-ER:强化空间推理能力
Gemini Robotics-ER专注于提升机器人的空间推理能力,帮助其更好地理解复杂、动态的物理世界。这款模型的主要优势包括:

1. 空间推理
Gemini Robotics-ER大幅增强了Gemini 2.0在精确指向和三维检测方面的能力。例如,当展示一个机器人从未见过的咖啡杯时,该模型可以直观地判断出如何用两指抓住手柄,并规划接近它的安全轨迹。

2. 端到端控制
Gemini Robotics-ER能够执行机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在某些情况下,当代码生成不足以解决问题时,该模型还可以通过少量人类演示来学习并提供解决方案。

3. 安全性保障
谷歌DeepMind正在开发一种“分层方法”,确保Gemini Robotics-ER能够与低级安全关键控制器连接。这使得模型能够在特定上下文中判断潜在动作是否安全,并生成适当的响应。

结语:迈向通用机器人的重要一步
尽管多模态大模型已经在AI领域展现出卓越的通用能力,但将其转化为机器人这样的物理智能体仍面临巨大挑战。此次发布的Gemini Robotics系列模型标志着谷歌DeepMind在开发通用具身智能机器人道路上迈出的重要一步。然而,团队也承认Gemini 2.0在长视频中的空间关系处理方面存在不足,未来还需进一步增强模型在复杂场景中的多步骤推理能力和精巧操作能力,同时实现零样本跨实体形态迁移。

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...