探索3D世界的革命性突破:Uni-3DAR自回归模型助力AI for Science,统一微观与宏观的3D结构,性能超越扩散模型256%,推理速度提升21.8倍,大模型时代的新里程碑
从微观分子与材料结构到宏观几何与空间智能,构建和解析 3D 结构是推动科学研究的重要基础。3D 结构不仅蕴含丰富的物理和化学信息,还为科学家提供了拆解复杂系统、进行模拟预测以及跨学科创新的关键工具。如何高效且精准地生成和理解 3D 模型正成为 AGI、AI for Science 和具身智能三大热门领域共同关注的焦点。随着 AI 技术的发展,大型语言模型(LLM)和多模态模型(LMM)的自回归 token 预测能力也开始被应用于创建和解析 3D 结构,这为 AI for Science 带来了新的可能性。
近日,一款开创性的大模型诞生了!它名为 Uni-3DAR,由深势科技、北京科学智能研究院及北京大学联合开发。Uni-3DAR 是一个通过自回归下一 token 预测任务将 3D 结构生成与理解统一起来的框架,也是全球首个此类科学大模型。该模型的研发团队阵容强大,包括深势科技 AI 算法负责人柯国霖、中国科学院院士鄂维南、深势科技创始人兼首席科学家张林峰等。
论文Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens
论文地址:https://arxiv.org/abs/2503.16278
项目主页:https://uni-3dar.github.io
代码仓库:https://github.com/dptech-corp/Uni-3DAR
基于一种通用的粗到细 token 化方法,Uni-3DAR 使用自回归方式统一了 3D 结构的生成和理解任务。实验结果表明,Uni-3DAR 在多个任务中表现出色,尤其是在生成任务中,相较于现有扩散模型,性能提升了 256%,推理速度提高了 21.8 倍。此外,该模型不仅适用于微观 3D 分子建模,还能处理宏观 3D 任务,具备跨尺度能力。
Uni-3DAR 主要解决了 3D 结构建模中的两大痛点:数据表示不统一和建模任务不统一。在数据表示方面,当前 3D 结构存在多种表示方式,微观结构常用原子坐标或图结构,而宏观结构则多采用点云或网格(Mesh)。这些差异导致建模思路截然不同,限制了模型的通用性。在建模任务方面,生成任务多依赖扩散模型,而理解任务则主要基于无监督预训练方法,二者独立发展,难以融合。
为了应对这些问题,Uni-3DAR 提出了以下核心技术:
Compressed Spatial Tokens
1. 层次化八叉树压缩:利用八叉树对整个 3D 空间进行无损压缩,形成由粗到细的层次结构。
2. 精细结构 token 化:引入“3D patch”概念,通过离散化技术将连续的空间信息转化为离散 token。
3. 二级子树压缩:将父节点及其子节点的信息合并为单一 token,降低 token 数量约 8 倍。
这些技术充分利用了 3D 结构的稀疏性,实现了从微观到宏观 3D 结构的统一表示。
Masked Next-Token Prediction
为了统一生成和理解任务,Uni-3DAR 提出了 Masked Next-Token Prediction 策略。通过复制 token 并掩码其中一个副本,模型能够直接利用位置信息进行预测,从而更精确地捕捉下一个 token 的特征。尽管序列长度翻倍,但实验结果表明,该策略显著提升了性能,推理速度仅下降 15% 至 30%。
实验结果显示,Uni-3DAR 在分子生成、晶体结构生成与预测、蛋白结合位点预测、分子对接和分子预训练等多个任务中均取得了领先性能。未来,Uni-3DAR 将进一步扩展至宏观 3D 结构任务,并探索多模态信息的融合,为构建通用科学智能体奠定基础。
本文来源: