微软推出基于Transformer架构和VQGAN图像编码器的游戏开发大模型:实现离散化处理与多样性测试,一张图片生成游戏的创新时代来临,游戏界ChatGPT正式登场

微软发布游戏领域创新大模型Muse,大幅提升开发效率

微软在官网上推出了专为游戏领域设计的创新大模型——Muse。尽管Muse基于著名的Transformer架构,但其创建游戏场景的方式却独具特色,不依赖传统的文本提示,而是通过游戏画面和控制器操作的序列化数据作为输入,生成符合游戏机制和物理规则的。例如,仅凭一张游戏截图,Muse就能迅速生成多个可能的后续游戏画面,并通过Xbox手柄控制角色,生成与开发者操作相匹配的后续,极大地提高了游戏开发效率。

游戏开发流程复杂,Muse简化了各个环节

游戏开发是一个高度复杂的过程,涉及创意构思、角色设计、场景搭建、玩法策划等多个环节,需要众多专业人员协同合作。以小型独立游戏工作室为例,从CEO提出新角色概念到最终完成关卡设计,整个过程繁琐且耗时。而Muse能够轻松应对这些复杂的开发流程,大大减少了创意投入和时间成本。

Muse架构详解:VQGAN图像编码器离散化处理

Muse采用了与ChatGPT相同的Transformer架构,并引入了VQGAN图像编码器,将游戏画面中的每一帧图像编码为一系列离散tokens,保留了原始图像的关键信息,使得模型能够高效处理图像数据。每个游戏画面被编码为540个离散tokens,同时玩家的操作也被离散化处理,以适配模型的输入格式。训练过程中,Muse利用了大规模计算资源和优化策略,如1.6B参数的模型使用了高达1×10²²算力,学习更精细的动态关系,生成更加真实的游戏玩法。

高质量训练数据助力Muse性能提升

为了提升Muse的生成性能,微软与Ninja Theory工作室合作,获取了《Bleeding Edge》的真实玩家游戏数据。微软从游戏中提取了超过50万场玩家的游戏会话,涵盖了各种游戏场景和操作。这些数据经过清洗和匿名化处理,确保了玩家隐私和数据安全。最终提炼出两个数据集:7Maps和Skygarden,分别包含大量比赛记录和玩家轨迹,为模型提供了丰富的训练素材。

测试结果显示Muse具备连贯性、多样性和持续性

为了测试Muse的性能,微软使用了连贯性、多样性和持续性三种基准进行评估。连贯性测试中,FVD指标显示生成的游戏画面与真实画面之间的差异越来越小;多样性测试中,Wasserstein距离表明MUSE能生成多种不同的游戏玩法;持续性测试则展示了模型能够有效地支持创意人员的迭代创作过程。微软游戏研究负责人Katja Hofmann表示,Muse的研发初衷是受到OpenAI发布的ChatGPT启发,旨在利用丰富的游戏数据训练出更好的游戏模型。目前,Muse已在Azure AI Foundry上提供体验。

本文来源: AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...