北京大学与字节跳动合作的VAR项目在NeurIPS 2024中荣获最佳论文奖，厦门大学与清华大学团队获得亚军——聚焦人工智能、自回归模型及扩散模型的最新进展

近日，人工智能领域顶级会议NeurIPS公布了2024年的最佳论文奖项，包括最佳论文（Best Paper）和最佳论文亚军（Best Paper Runner-up）。此次评选吸引了众多研究者的关注，共收到了15671篇有效论文投稿，比去年增长了27%，但最终接收率仅为25.8%。

最佳论文

论文1：《Visual Autoregressive Modeling： Scalable Image Generation via Next-Scale Prediction》

– 作者： Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
– 机构：北京大学、字节跳动
– 论文链接： [https：//arxiv.org/pdf/2404.02905](https：//arxiv.org/pdf/2404.02905)
– 项目链接： [https：//github.com/FoundationVision/VAR](https：//github.com/FoundationVision/VAR)

该论文提出了一种新的视觉自回归生成模型——VAR（Visual AutoRegressive Modeling）。研究团队通过模仿人类处理图像的逻辑顺序，提出了由粗到细、由全局轮廓到局部精调的生成方式，使自回归模型在图像生成领域首次超越了扩散模型。VAR不仅在生成质量和速度上表现出色，还展现了类似于大语言模型的扩展定律和零样本任务泛化能力。

论文2：《Stochastic Taylor Derivative Estimator： Efficient amortization for arbitrary differential operators》

– 作者： Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
– 机构：新加坡国立大学、Sea AI Lab
– 论文链接： [https：//arxiv.org/abs/2412.00088](https：//arxiv.org/abs/2412.00088)
– 项目链接： [https：//github.com/sail-sg/stde](https：//github.com/sail-sg/stde)

该论文提出了一种高效的随机泰勒导数估计器，用于处理包含高维和高阶微分算子的优化问题。通过正确构造单变量高阶自动微分输入切线，该方法能够有效随机化任意微分算子，显著提高了计算效率和内存利用率。在大规模问题中，如物理信息神经网络（PINN）的应用，该方法提供了超过1000倍的速度提升和30倍以上的内存减少。

最佳论文亚军

论文1：《Not All Tokens Are What You Need for Pretraining》

– 作者： Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
– 机构：厦门大学、清华大学、微软
– 论文链接： [https：//openreview.net/pdf?id=0NMzBwqaAJ](https：//openreview.net/pdf?id=0NMzBwqaAJ)
– 项目链接： [https：//github.com/microsoft/rho](https：//github.com/microsoft/rho)

该论文挑战了传统的语言模型预训练方法，提出并非所有token都对训练同样重要。通过分析语言模型的token级训练动态，研究团队开发了一种选择性语言建模（SLM）方法，即RHO-1。RHO-1在数学任务上表现优异，仅用3%的预训练token就达到了DeepSeekMath的水平，显著提升了数据效率和模型性能。

论文2：《Guiding a Diffusion Model with a Bad Version of Itself》

– 作者： Tero Karras, Miika Aittala, Tuomas Kynkänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
– 机构：英伟达、阿尔托大学
– 论文链接： [https：//arxiv.org/pdf/2406.02507](https：//arxiv.org/pdf/2406.02507)

该论文提出了一种新的扩散模型引导方法，通过使用较小、训练较少的模型版本来引导生成，从而在不影响多变程度的情况下提升图像质量。实验结果表明，该方法在ImageNet生成效果上取得了显著提升，创造了新的FID记录。

本文来源：