Roblox,这个备受青少年喜爱的在线游戏平台,正在通过引入AI技术进一步革新游戏创作体验。作为曾获选「儿童票选奖最受欢迎游戏」的平台,Roblox允许用户设计自己的游戏、物品及服装,并可以游玩自己和其他开发者创建的各种类型的游戏。现在,用户可以通过AI来辅助完成这些创作。
最近,Roblox发布了一个名为Cude的3D智能基础模型。该模型的目标是生成整个Roblox游戏的各个方面体验,从生成3D物体和场景到人物角色,再到描述事物行为的编程脚本。Roblox创始人兼CEO David Baszucki也在推特上分享了这一消息。
此外,Roblox还在Hugging Face上线了一个Web应用,不少网友已经分享了他们的生成结果。例如,尝试生成一个三头六臂的男孩或一台老式打字机等。尽管Cube的整体效果目前还只能说是一般,但它在生成日常可见的事物时表现较好,而超出常识的则容易产生不符合预期的结果。
论文标题为《Cube: A Roblox View of 3D Intelligence》,详细介绍了这一研究。Roblox开发此3D智能基础模型的动机非常明确:构建各种协作助手的基础,帮助开发者创造Roblox体验的各个方面。基于这些设想,他们确立了三个核心设计要求:能从稀疏的多模态数据中联合学习;可通过自回归模型处理无界的输入/输出大小;能通过多模态输入/输出与人类和其他AI系统协作。
为了实现这些目标,Roblox关注的核心是3D形状的token化。研究表明,新提出的token化方案可以用来构建多种应用,包括文本到形状生成、形状到文本生成和文本到场景生成。
形状token化的关键是忠实地捕捉各种几何特性,包括光滑的表面、锐利的边缘和高频细节。为此,Roblox提出了一种具有足够表现力的3D几何表示,可用作多模态自回归序列模型的输入和输出token。他们还提出了两种技术:随机梯度捷径和自监督隐含空间正则化,以解决离散化过程中出现的难题。
此外,研究者还提出了相位调制位置编码(PMPE),这种技术能够提高基于感知器的Transformer在交叉注意力层中为空间不同点消歧的能力。实验表明,PMPE显著提高了重建保真度,特别是对于复杂的几何细节。
最后,Roblox展示了具体的模型应用案例,包括文本到形状生成、形状到文本生成和文本到场景生成。更多详情请参考原论文。
本文来源: