香港大学的Jihan Yang和纽约大学的谢赛宁等科研人员近期发布了一项创新成果——V-IRL项目,旨在构建更强大的AI Agent。V-IRL通过模拟真实世界的地图、街景等信息,为智能体创造了一个与现实无异的虚拟环境,使它们能在其中执行复杂任务。该平台利用API将AI嵌入全球真实城市,提供大规模、多样性的测试场景,包括Google街景的海量图像。
V-IRL智能体如Peng、Aria、Vivek、RX-399、Imani、Hiro、Ling和Diego展示了各种实用技能,如路径规划、餐厅推荐、房地产搜索、城市导航和协作解决问题。通过这种方式,V-IRL展示了如何利用开放世界计算机视觉和具身人工智能的进步。
V-IRL基准测试评估了模型在地点定位、识别、视觉问答和视觉语言导航方面的性能。结果显示,虽然一些模型在特定任务上表现出色,但在处理地理多样性和多语言数据时仍面临挑战。这一平台为缩小数字与现实世界感知差距、提升AI理解环境和处理现实信息的能力开辟了新途径,预示着未来AI在个人助手、城市规划等领域更广泛的应用。
本文来源: 新智元【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...