利用开源大模型VideoGameBunny提升游戏开发中的视觉AI与LoRA微调技术深度解析

大模型在游戏开发领域中发挥着重要作用，涵盖了从AI机器人的生成到游戏场景的构建等多个方面。然而，在游戏场景理解、图像识别和描述方面仍存在一些挑战。为解决这些问题，加拿大阿尔伯塔的研究人员推出了一款名为VideoGameBunny（简称“VGB”）的大模型，并将其开源。VGB可以作为视觉AI助手，帮助玩家理解和应对游戏环境。

在探索型3A游戏中，VGB能够识别关键物品并提供实时反馈，从而帮助玩家更快地掌握游戏技巧，提升游戏的互动性和沉浸感。此外，VGB通过分析大量游戏图像数据，能够检测图形渲染错误和物理引擎的不一致等问题，帮助开发者迅速识别和修复游戏中的bug和异常。

VGB基于高性能低消耗的Bunny模型开发而成，其设计方法与LLaVA类似，采用多层感知器网络作为投影层，将视觉嵌入转化为图像标记，供语言模型处理。Bunny模型支持最高1152×1152像素的图像分辨率，这对于处理复杂的视频游戏图像至关重要，因为游戏画面通常包含各种尺寸的视觉元素。多尺度特征提取有助于模型捕捉这些细节，从而提高对游戏的理解能力。

为了使VGB更好地理解和处理游戏的视觉，研究人员使用了Meta开源的LLama-3-8B作为语言模型，并结合了SigLIP视觉编码器和S2包装器。这种方法能够捕捉游戏中不同尺度的视觉元素，从微小的UI图标到大型游戏对象，为模型提供丰富的上下文信息。此外，为了生成与游戏图像匹配的指令数据，研究人员使用了Gemini-1.0-Pro-Vision、GPT-4V、GPT-4o等多种先进模型，生成不同类型的指令，如简短标题、详细标题、图像到JSON的描述以及基于图像的问答等。

在模型训练方面，VGB采用了流行的LoRA参数高效微调方法，允许模型在保持预训练权重的同时，对特定任务进行微调，从而在不显著增加计算成本的情况下提高模型性能。研究团队还使用了PEFT库来指导模型的训练过程，进一步提升了训练的高效性和稳定性。

在训练数据方面，研究人员收集了来自413款不同游戏的超过185,000张图像及近39万个图像-指令对，涵盖图像说明、问答对以及136,974张图像的JSON表示。JSON格式的数据包含了16个元素，能够捕捉图像的多层次细节信息，包括整体概述、人物描述、天气信息、用户界面和玩家库存的摘要、场景中的物体、照明和环境效果等。为了创建图像到JSON的数据集，研究团队使用Gemini-1.5-Pro结合特定指示，将给定图像转换成一个具有层次结构细节和信息的JSON文件。

研究人员认为，全球游戏市场总额已超过3000亿美元，游戏开发、性能测试和提升游戏体验等方面对大模型的需求巨大。VGB不仅能够辅助开发人员，还能帮助玩家实现这些目标。

本文来源：