标签：视觉语言模型

强化学习与视觉语言模型结合：西北大学推出三维布局空间推理框架MetaSpatial，解锁50条数据驱动的空间智能新纪元

（由多段落组成）在三维空间理解任务中，让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如，“请将这些家具合理摆放在房间中”，尽管现有模型可以识别图像中的物体并给出语义连贯的描述，但通常缺乏对三维空间结构的真实建模，难以满足基本的物理约束与功能合理性。为解决这一问题，研究者尝试采用多智能体交互方法优化布局结果。然而，这类方法不仅计算成本高，而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料，结合监督微调（Supervised Fine-Tuning, SFT）训练模型。虽然这种方式...

来源：

量子位【阅读原文】
Tags：MetaSpatial 三维布局强化学习空间推理视觉语言模型

1周前

GPT-4助力《黑神话·悟空》游戏体验：AI视觉语言模型驱动的游戏智能体框架实现精英怪胜率超越人类玩家，纯大模型方案无需强化学习

近年来，AI技术在游戏领域的应用越来越广泛。最近，一项新的研究表明，AI不仅能够流畅地玩《黑神话·悟空》，还能在某些场景中取得比人类更高的胜率。这项研究由阿里巴巴的研究团队完成，并提出了一种名为VARP（视觉动作角色扮演）智能体框架，该框架通过视觉语言模型（VLMs）直接处理游戏截图并生成相应的Python代码来操控游戏。在《黑神话·悟空》这款游戏中，研究人员定义了12个任务，其中75%与战斗相关。为了验证VARP框架的有效性，他们构建了一个包含1000条有效数据的人类操作数据集，其中包括键鼠操作和游戏截图。每个...

来源：

量子位【阅读原文】
Tags：AI GPT-4o 游戏智能体框架视觉语言模型黑神话·悟空

6个月前

OpenAI大模型上身机器人，原速演示炸场!

OpenAI赋能机器人Figure 01，高效能互动展现未来潜力！近日，OpenAI的先进大模型被应用到一款名为Figure 01的机器人身上，展现出惊人的实时交互和动作执行能力。这款机器人能够准确识别和描述环境，并能理解并执行复杂的指令，例如在听到“想吃东西”时递上苹果。值得注意的是，所有展示均无任何加速处理，完全展示了机器人的实际速度和自主性。 Figure 01依赖于OpenAI的视觉和语言理解技术，具备规划动作、短期记忆和解释推理过程的能力。其通过高频率的图像捕捉和动作输出，实现24自由度的精确控制。在任务执行中，复杂...

来源：

量子位【阅读原文】
Tags：Figure 01 OpenAI 具身智能机器人视觉语言模型

1年前 (2024)