标签:视觉语言模型
强化学习与视觉语言模型结合:西北大学推出三维布局空间推理框架MetaSpatial,解锁50条数据驱动的空间智能新纪元
(由多段落组成) 在三维空间理解任务中,让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如,“请将这些家具合理摆放在房间中”,尽管现有模型可以识别图像中的物体并给出语义连贯的描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。 为解决这一问题,研究者尝试采用多智能体交互方法优化布局结果。然而,这类方法不仅计算成本高,而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)训练模型。虽然这种方式...
GPT-4助力《黑神话·悟空》游戏体验:AI视觉语言模型驱动的游戏智能体框架实现精英怪胜率超越人类玩家,纯大模型方案无需强化学习
近年来,AI技术在游戏领域的应用越来越广泛。最近,一项新的研究表明,AI不仅能够流畅地玩《黑神话·悟空》,还能在某些场景中取得比人类更高的胜率。这项研究由阿里巴巴的研究团队完成,并提出了一种名为VARP(视觉动作角色扮演)智能体框架,该框架通过视觉语言模型(VLMs)直接处理游戏截图并生成相应的Python代码来操控游戏。 在《黑神话·悟空》这款游戏中,研究人员定义了12个任务,其中75%与战斗相关。为了验证VARP框架的有效性,他们构建了一个包含1000条有效数据的人类操作数据集,其中包括键鼠操作和游戏截图。每个...
OpenAI大模型上身机器人,原速演示炸场!
OpenAI赋能机器人Figure 01,高效能互动展现未来潜力! 近日,OpenAI的先进大模型被应用到一款名为Figure 01的机器人身上,展现出惊人的实时交互和动作执行能力。这款机器人能够准确识别和描述环境,并能理解并执行复杂的指令,例如在听到“想吃东西”时递上苹果。值得注意的是,所有展示均无任何加速处理,完全展示了机器人的实际速度和自主性。 Figure 01依赖于OpenAI的视觉和语言理解技术,具备规划动作、短期记忆和解释推理过程的能力。其通过高频率的图像捕捉和动作输出,实现24自由度的精确控制。在任务执行中,复杂...