英伟达开源NVIDIA Cosmos:加速物理AI与自动驾驶开发,突破人形机器人技术训练难点,利用合成数据优化模型性能

NVIDIA Cosmos平台助力物理AI发展,推动自动驾驶机器人技术革新

在CES 2025的主题演讲中,NVIDIA创始人兼CEO黄仁勋宣布推出世界基础模型平台Cosmos。该平台旨在解决制约通用机器人及自动驾驶发展的关键问题——训练数据的获取与处理。Cosmos由先进的生成式世界基础模型(WFM)、高级视频tokenizer、护栏机制和加速视频处理流水线组成,并针对NVIDIA数据中心GPU进行了优化,有助于推动自动驾驶汽车、机器人等物理AI系统的发展。

物理AI模型的开发成本高昂,需要大量真实数据和测试。Cosmos使开发者能够轻松生成基于物理学的逼真合成数据,以用于训练和评估现有模型。此外,开发者可以通过微调Cosmos模型来构建自定义模型。首批用户包括1X、思灵机器人、Agility、Figure AI、Foretellix、傅利叶、银河通用、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi、小鹏汽车等全球领先的物理AI企业,涉及机器人、自动驾驶、共享出行等领域。

Cosmos模型将以开放模型许可证的方式提供,首批模型有8款,参数量从40亿到140亿不等。这些模型将在NVIDIA NGC目录或Hugging Face上供下载,并很快以经过全面优化的NVIDIA NIM微服务形式提供。开发者可以使用NVIDIA NeMo Curator加速视频处理,并通过NVIDIA DGX Cloud快速部署这些模型,同时获得NVIDIA AI Enterprise软件平台的企业支持。

推动物理AI普及,迎接“机器人ChatGPT时刻”

黄仁勋表示,“机器人技术的ChatGPT时刻即将到来。”世界基础模型是推动机器人和自动驾驶汽车开发的基础。英伟达创建Cosmos的目的是普及物理AI,让每一位开发者都能接触到通用机器人技术。借助NVIDIA Cosmos的开放模型套件,开发者可以根据目标应用的需求定制世界基础模型,例如生成自动驾驶汽车旅行视频或机器人在仓库中的移动轨迹。

Cosmos专为物理AI研发而生,是一套开放扩散和自回归Transformer模型,旨在实现基于物理学的交互、物体恒存性以及高质量仿真工业环境和驾驶环境的生成。这些模型接受了来自2000万小时真实世界人类交互、环境、工业、机器人、自动驾驶数据的训练,可根据文本、图像和视频等输入组合生成基于物理学的视频。

黄仁勋展示了多个使用Cosmos模型的用例,包括视频搜索和理解、基于物理学的逼真合成数据生成、物理AI模型开发和评估、以及预测与“多元宇宙”模拟。

提供先进开发工具,保护数据隐私安全

构建物理AI模型需要数PB(petabytes)的视频数据和数万小时的计算。为了帮助节省数据整理、训练和模型定制的巨大成本,Cosmos提供了以下功能:

– NVIDIA NeMo Curator:驱动NVIDIA AI和CUDA加速数据处理管线,使开发者能够在14天内处理、整理和标记2000万小时的视频。
– NVIDIA Cosmos Tokenizer:先进的可视化tokenizer,将图像和视频转换成token,总压缩率提高了8倍,处理速度提高了12倍。
– NVIDIA NeMo框架:用于高效的模型训练、定制和优化。

关于隐私和数据保护,NVIDIA设计了多种措施。Cosmos根据NVIDIA的可信AI原则开发,优先考虑隐私、安全、保障、透明和减少不必要的偏见。Cosmos开放平台加入了专为减少有害文字和图像而设计的护栏,并提供了一个增强文字提示准确性的工具。生成的视频带有隐形水印,可识别AI生成的,有助于减少错误信息和错误归属的可能性。

多家物理AI企业已采用,加速人形机器人和自动驾驶开发

许多物理AI行业的领先者已开始使用Cosmos技术。例如,AI人形机器人公司1X使用Cosmos Tokenizer推出了1X World Model Challenge数据集。Hillbot和Skild AI正在使用Cosmos加速其通用机器人的开发。小鹏汽车也将使用Cosmos加快其人形机器人的开发。

一些交通运输领域的领先企业也在使用Cosmos构建适用于自动驾驶汽车的物理AI。例如,Waabi正在评估Cosmos在自动驾驶汽车软件开发和仿真中的应用;Wayve则评估使用Cosmos搜索极端驾驶场景以提高安全性和验证;Foretellix将使用Cosmos与NVIDIA Omniverse Sensor RTX API大规模评估和生成高保真测试场景与训练数据。全球共享出行巨头Uber正与NVIDIA合作共同加速自动驾驶汽车的发展。

结语:打开AI理解物理世界之门

机器人、自动驾驶等物理AI的开发离不开大量真实数据。NVIDIA Cosmos平台的出现恰逢其时,通过能够生成高仿真虚拟世界状态的世界基础模型,为开发者们提供了教AI理解物理世界的关键工具。这标志着NVIDIA未来AI雄心的展现,即通过Cosmos和Omniverse平台组合,加速物理AI的构建与应用。

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...