利用GPT-4o挑战《黑神话·悟空》:精英怪物胜率超越人类玩家,探索无强化学习的纯大模型解决方案——VARP框架与Claude 3.5 Sonnet助力下的AI革新
随着人工智能技术的发展,AI在游戏领域的应用越来越广泛。近日,阿里巴巴的研究团队提出了一种名为VARP(视觉动作角色扮演)的智能体框架,能够直接从游戏截图中生成Python代码来控制游戏角色。这一研究成果引起了广泛关注。
在测试过程中,研究人员选择了热门国产游戏《黑神话·悟空》作为实验平台,并定义了12个任务,其中75%的任务与战斗相关。为了验证VARP框架的有效性,研究人员构建了一个包含1000条有效数据的人类操作数据集,其中包括键盘和鼠标的操作记录以及游戏截图。每个操作都是由原子命令的各种组合构成的序列,例如轻攻击、闪避、重攻击和回血等。
VARP框架主要包括两个核心系统:动作规划系统和人类引导轨迹系统。动作规划系统由情境库、动作库和人类引导库组成,利用视觉语言模型(VLMs)进行动作推理和生成。此外,框架还引入了辅助模块用于分解特定任务,并包含一个自我优化的动作生成模块。人类引导轨迹系统则利用人类操作数据改进智能体的性能,对于困难任务,系统会查询人类引导库获取相似截图和操作,从而生成新的引导动作。
在实验中,研究人员使用了多种大模型,包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro。结果显示,在简单的战斗场景中,AI的表现几乎与人类玩家持平。但在面对较为复杂的敌人时,如牯护院,只有GPT-4o表现最佳。然而,在面对幽魂这类敌人时,所有AI都显得力不从心。
尽管取得了显著成果,研究人员也指出了VARP框架的一些局限性。由于VLMs的推理速度受限,无法实时处理每一帧画面,因此只能选择关键帧输入,这可能导致AI错过一些重要信息。此外,由于游戏中缺乏明确的道路引导,智能体在没有人类引导的情况下难以找到正确的路线。
这项研究由阿里巴巴团队完成,共有五位作者参与。未来,研究人员计划发布相关的代码和数据集,供更多人参考和使用。
值得一提的是,AI打游戏已不是新鲜事。例如,基于强化学习的方法已经在《星际争霸II》中击败了人类职业高手。然而,此次研究中使用的VARP框架并没有采用强化学习,而是完全依赖大模型。这为未来的AI游戏研究开辟了新的可能性。
本文来源: iFeng科技【阅读原文】