大模型在游戏开发领域中发挥着重要作用,涵盖了从AI机器人的生成到游戏场景的构建等多个方面。然而,在游戏场景理解、图像识别和描述方面仍存在一些挑战。为解决这些问题,加拿大阿尔伯塔的研究人员推出了一款名为VideoGameBunny(简称“VGB”)的大模型,并将其开源。VGB可以作为视觉AI助手,帮助玩家理解和应对游戏环境。
在探索型3A游戏中,VGB能够识别关键物品并提供实时反馈,从而帮助玩家更快地掌握游戏技巧,提升游戏的互动性和沉浸感。此外,VGB通过分析大量游戏图像数据,能够检测图形渲染错误和物理引擎的不一致等问题,帮助开发者迅速识别和修复游戏中的bug和异常。
VGB基于高性能低消耗的Bunny模型开发而成,其设计方法与LLaVA类似,采用多层感知器网络作为投影层,将视觉嵌入转化为图像标记,供语言模型处理。Bunny模型支持最高1152×1152像素的图像分辨率,这对于处理复杂的视频游戏图像至关重要,因为游戏画面通常包含各种尺寸的视觉元素。多尺度特征提取有助于模型捕捉这些细节,从而提高对游戏的理解能力。
为了使VGB更好地理解和处理游戏的视觉,研究人员使用了Meta开源的LLama-3-8B作为语言模型,并结合了SigLIP视觉编码器和S2包装器。这种方法能够捕捉游戏中不同尺度的视觉元素,从微小的UI图标到大型游戏对象,为模型提供丰富的上下文信息。此外,为了生成与游戏图像匹配的指令数据,研究人员使用了Gemini-1.0-Pro-Vision、GPT-4V、GPT-4o等多种先进模型,生成不同类型的指令,如简短标题、详细标题、图像到JSON的描述以及基于图像的问答等。
在模型训练方面,VGB采用了流行的LoRA参数高效微调方法,允许模型在保持预训练权重的同时,对特定任务进行微调,从而在不显著增加计算成本的情况下提高模型性能。研究团队还使用了PEFT库来指导模型的训练过程,进一步提升了训练的高效性和稳定性。
在训练数据方面,研究人员收集了来自413款不同游戏的超过185,000张图像及近39万个图像-指令对,涵盖图像说明、问答对以及136,974张图像的JSON表示。JSON格式的数据包含了16个元素,能够捕捉图像的多层次细节信息,包括整体概述、人物描述、天气信息、用户界面和玩家库存的摘要、场景中的物体、照明和环境效果等。为了创建图像到JSON的数据集,研究团队使用Gemini-1.5-Pro结合特定指示,将给定图像转换成一个具有层次结构细节和信息的JSON文件。
研究人员认为,全球游戏市场总额已超过3000亿美元,游戏开发、性能测试和提升游戏体验等方面对大模型的需求巨大。VGB不仅能够辅助开发人员,还能帮助玩家实现这些目标。
本文来源: AIGC开放社区公众号【阅读原文】