香港科技大学谭平教授团队在CVPR 2025上发表了两项三维生成技术框架,并将核心代码全部开源,旨在推动三维生成技术的发展与普及。其中,Craftman3D获得了三位评委的一致满分评价,并被多家知名企业引用和认可,如全球最大的多人在线游戏创作平台Roblox、腾讯混元Hunyuan3D-2、XR实验室的XR-3DGen以及海外初创公司CSM的3D创作平台等。这些技术已融入光影焕像的三维生成平台及产品中,用户只需简单操作即可开启专属三维创作之旅。
光影焕像3D生成平台(主站):https://triverse.ai/zh-cn/
光影焕像3D生成平台(国内备用):https://triverse.lightillusions.com/zh-cn/
本文作者包括Craftman3D的共同一作李威宇、刘嘉瑞和阎鸿禹,均为香港科技大学博士研究生;Dora的第一作者为香港科技大学博士陈锐,他们均是谭平教授组的在读博士生。
在游戏、影视、AR/VR乃至具身智能的环境仿真中,三维创建起着关键作用。然而,传统三维建模方式需要建模者具备大量专业知识,并投入大量人工操作,这使得建模过程极为耗时且充满挑战,尤其对非专业用户而言更是如此。高昂的时间与人力成本已成为限制这些领域发展的主要瓶颈。
近年来,基于AI的三维生成技术逐步改变了这一局面。通过自动化生成技术,三维创建的门槛大幅降低,使更广泛的用户群体能够高效地构建三维数字。当前原生三维生成模型主要由两部分构成:一是3D-VAE(3D Variational Auto Encoder),它通过Encoder网络将三维模型压缩编码至潜在空间(latent space),并通过Decoder网络解码重构出三维模型;二是基于3D-VAE构建的潜在扩散模型(latent diffusion model),用于处理文本或图像输入的三维模型生成。三维生成大模型所呈现的细节上限,在很大程度上取决于3D-VAE对三维几何的编码与重建能力。
为了提升三维模型编解码过程中的几何细节丰富度,香港科技大学谭平团队联合字节跳动豆包大模型团队与光影焕像团队共同提出了Dora模型来改进三维原生VAE。在3D-VAE模型的基础上,香港科技大学与光影焕像团队进一步提出了Craftsman3D算法方案,该方案借鉴了传统建模流程,能够快速生成高质量的3D模型,以满足设计师对高质量三维模型的需求。
Dora开源代码:https://github.com/Seed3D/Dora
Dora项目主页:https://aruichen.github.io/Dora
本文提出的Dora-VAE创新性地将显著边缘采样算法与双交叉注意力机制相结合,极大地提升了三维变分自编码器(3D-VAE)的重建质量与压缩性能。在训练阶段,该方法能够精准识别出具有较高几何复杂性的区域,并对其优先处理,从而有效改善了对精细几何特征的保留情况,让变分自编码器能够着重关注那些传统均匀采样方式容易忽视的关键几何细节。在实现高质量重建的同时,相较于当前SOTA方法(Xcube),Dora-VAE在3D形状压缩率方面实现了超过8倍的提升。
当前三维变分自编码器的运行机制是:通过在三维网格表面进行点采样来完成形状编码,而后利用解码器对原始三维网格进行重建。经过深入研究,研究人员察觉现有方法普遍采用均匀采样(uniform sampling)策略,从而导致重建性能受限。为了验证这一发现,研究人员选取了具有复杂几何细节的键盘作为实验对象,对其进行点云采样,并将不同采样策略在多种采样密度下的点云分布情况进行了可视化呈现。实验结果清晰地显示:即便提升了采样率,采用均匀采样方式依旧无法有效地保留键盘按键等锐利特征(sharp feature)。这一实验有力地证实了,均匀采样在本质上对几何细节的捕捉能力形成了制约,而这种制约进一步对变分自编码器的重建精度以及所训练扩散模型的生成质量产生了不良影响。
受重要性采样理念的启发,研究人员设计了显著边缘采样(Sharp Edge Sampling, SES)算法,该算法能够基于几何显著性实现自适应点采样。具体而言,SES算法首先识别网格中具有显著二面角的边缘(这些边缘所在区域往往对应高几何复杂度区域),并沿显著区域进行点采样。与此同时,为了保证三维模型表面的覆盖完整性,研究人员依旧会进行表面均匀点采样。因此,最终生成的采样点云由表面均匀采样点与显著区域采样点联合构成。
Craftman3d开源代码:https://github.com/wyysf-98/CraftsMan3D
Craftman3d项目主页:https://craftsman3d.github.io/
在训练3D-VAE的基础上,CraftsMan3D通过汲取传统建模流程的经验,精心设计了两阶段的技术方案:第一阶段使用原生三维大模型进行初始模型生成。算法先使用multi-view image diffusion进行多视图生成,然后将多视图输入到3D-DiT扩散模型中来生成拓扑规则的几何和纹理。第二阶段为几何细化阶段,团队使用法向图超分的方案实现高质量法向估计,然后通过可微渲染实现法线图引导的几何细节优化。
普通用户无需复杂操作即可快速搭建出精美的三维模型和场景。无论是游戏开发、影视制作还是建筑室内设计、具身感知虚拟场景,各类创意都能轻松实现。如下图所示,场景中的所有物体均由Craftman3D自动生成。
本文来源: