无需游戏引擎,视频基础模型直接生成实时交互可玩的《我的世界》(Minecraft),初创公司Decart和Etched共同打造的Oasis已经实现了这一目标。现在,两家公司宣布推出世界上首个实时、可玩、可交互的世界模型——Oasis。Oasis通过数百万小时的游戏视频训练,只需接收用户的键盘输入即可实时生成开放世界游戏,而无需任何游戏引擎,仅依赖一个AI基础模型。
游戏中,玩家可以进行移动、跳跃、拾取物品、打破砖块等操作,生成的视频不仅包含图形学的渲染,还能体现对物理原则和游戏规则的理解。在没有延迟的情况下,Oasis在NVIDIA H100上运行时能以360p的分辨率实现每秒20帧的渲染,并实时生成视频交互。
此前,谷歌发布了首个AI游戏引擎GameNGen,但并未开源。然而,此次Decart和Etched不仅开源了Oasis的代码,还公开了500M参数版本的模型权重。项目代码和模型权重分别托管在GitHub和Hugging Face上:
– GitHub: https://github.com/etched-ai/open-oasis
– Hugging Face: https://huggingface.co/Etched/oasis-500m/tree/main
此外,官网上已经提供了游戏demo,感兴趣的玩家可以从项目官网进入网页端试玩,体验复刻Minecraft的画风。项目网址: https://oasis.decart.ai/
尽管全AI生成是一大亮点,但360p的分辨率在当今4K HDR的时代显得有些复古,可能不那么符合2024年玩家的视觉需求。不过,如果在Etched打造的Sohu芯片上运行100B+参数的优化模型,就能实现4K级别的实时渲染,并发用户数量也将提升超过10倍。
今天,红杉资本宣布以2100万美元投资Oasis背后的初创公司Decart。虽然Oasis看起来是一款游戏,但其核心技术在于“视频”和“交互”。OpenAI今年发布的Sora可以说是视频模型的“第一枪”。随着视频模型的扩展,它们正在学习代表整个物理世界和游戏,从而赋能全新的产品类别。从短视频社交媒体到视频通话,再到流媒体,目前超过70%的互联网流量来自视频。然而,视频的数据密集程度相当高,AI生成视频所需的计算量比文本或图像多出10倍。因此,大部分人工智能推理工作负载将来自视频。无论是游戏、教育还是生成式,大型、低延迟、交互式的视频模型将成为下一波人工智能产品的核心。
Oasis是如何实现的?谷歌推出的GameNGen本质上仍是一个由AI驱动的游戏引擎,而Oasis的底层机制则是一个单一的视频生成模型,类似于一个可交互、可玩的Sora。技术团队进行了数百次架构和数据实验,以确定用于快速生成自回归交互式视频的最佳架构。Oasis模型基于Transformer架构,由基于ViT的变分自动编码器(VAE)和基于DiT的潜在扩散主干组成,使用了加速的轴向、时空和因果注意力机制来克服长序列中的模型发散。
Oasis的ViT+DiT架构可以理解为一个分工明确的工厂,各个组件各司其职。VAE负责整理和识别游戏中的各种信息,基于ViT架构对游戏画面的相关信息进行加工整理。主干则基于DiT架构,负责将加工处理好的信息生成游戏,如场景和物体。结合Decart的推理引擎和Etched公司的Sohu芯片,实现了实时视频生成。这种架构选择保证了在Sohu芯片上的稳定扩展和快速推理,并以自回归方式生成帧,能够根据游戏输入实时交互。
Sora类模型根据用户输入的文本生成视频,而Oasis使用Diffusion Forcing进行训练,每次只生成一帧,根据游戏输入在token级别调节每个帧,因此可操纵性很高。Oasis之所以被称为“世界模型”,是因为它已经能够理解复杂的游戏机制,如物体和建筑、照明的物理规律等。生成游戏画面时,如何保证时间稳定性是一个挑战。Oasis通过部署动态噪声解决了这一问题。Decart团队表示,未来将针对部分远处物体出现模糊、不确定对象的时间一致性等问题进行研究,逐步提升Oasis的游戏体验。
两家初创公司,强强联手,开启生成式交互体验新纪元。Oasis模型由Decart和Etched两家初创公司共同推出。Decart成立于2023年9月,致力于提高AI模型的效率和降低运行成本,提供更快、更可靠的训练和实时推理。成立三个月后,Decart与一家GPU云服务商达成了数百万美元的交易。今天,红杉资本豪掷2100万美元对其进行投资,合伙人Shaun Maguire高度评价Decart团队,认为他们是“超精英的AI工程师”、“合作过的技术最有天赋的团队之一”,正在将生成式体验推向极致。目前推出的Oasis只是一个实时推理方面的热身实验,接下来的几个月,他们还将发布更具有颠覆性的成果。
另一家初创公司Etched是一家来自美国的人工智能芯片公司,成立于2022年,三位核心创始人均为哈佛辍学生。他们最耀眼的成绩是推出了Sohu——世界上第一个基于Transformer架构的ASIC芯片,专为LLM推理加速设计,性能超越Groq和英伟达最新的B200。以Llama70B模型的推理性能为例,1张Sohu约等于20张H100或10张B200。Etched团队大胆预言——Transformer将占领世界,于是投入两年时间研发,得到了今天的Sohu。Etched创始人之一Gavin Uberti表示:“我们正在押注人工智能领域最大的赌注——一种只能运行Transformer模型的芯片,但其运行速度比GPU快几个数量级。也许注意力确实是你所需要的全部…”
高效的AI芯片对于极耗算力的视频生成来说,可以说是类似于Scaling Law的福音。虽然文生视频模型已经达到了很好的生成效果,但速度非常慢,成本也很高。视频中的每个帧包含数百甚至数千个token,必须并行处理多次才能完全去噪。最好的模型平均每秒生成不到一帧,每个用户每分钟的费用可能高达1美元。这种低效高成本的推理是视频生成模型用于实际应用的一大障碍,而这正是Sohu芯片期望解决的问题。今年6月,Etched宣布已经筹集了1.2亿美元的资金用于扩大生产,并与台积电合作,以35人的精干团队直接挑战市值3万亿的英伟达。
本文来源: 新智元公众号【阅读原文】