一种全新的视觉生成范式——邻近自回归建模

近年来,视觉生成任务在人工智能领域中逐渐崭露头角,尤其是在图像和视频生成方面。然而,传统的“下一个token预测”方法在效率上遇到了瓶颈。为了解决这一问题,浙江大学、上海AI Lab等机构的研究团队提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。

NAR模型通过采用“下一个邻域预测”的机制,将视觉生成过程视为一种逐步扩展的“外绘”过程。具体而言,NAR模型从初始token开始,按照与初始token的曼哈顿距离从小到大依次生成token。这种顺序不仅保留了视觉的空间和时间局部性,还允许模型在生成过程中并行预测多个相邻的token。为了实现这一点,研究人员引入了维度导向的解码头,每个头负责在空间或时间的一个正交维度上预测下一个token。

与传统方法相比,NAR模型能够在每一步中并行生成多个token,从而大幅减少了生成所需的模型前向计算步骤。这种创新的设计使得NAR模型在处理高分辨率图像或长视频生成时具有显著的优势。

实验结果表明,NAR模型在多个视觉生成任务上表现出色。例如,在ImageNet 256×256数据集上,NAR-L模型取得了比LlamaGen-XXL更低的FID,同时将生成步数减少了87.8%,带来了13.8倍的吞吐提升。在UCF-101数据集上,NAR模型相比基于“下一个词预测”的自回归模型在生成步骤上减少了97.3%。此外,在文本到图像生成任务中,NAR模型仅使用了0.4%的训练数据便获得了与Stable Diffusion v1.5相持平的综合得分。

总的来说,NAR模型为视觉生成任务提供了一种高效且高质量的解决方案,有望在未来的人工智能应用中发挥重要作用。更多细节可以查阅原论文及相关代码。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...