北京大学与字节跳动合作的VAR项目在NeurIPS 2024中荣获最佳论文奖,厦门大学与清华大学团队获得亚军——聚焦人工智能、自回归模型及扩散模型的最新进展
近日,人工智能领域顶级会议NeurIPS公布了2024年的最佳论文奖项,包括最佳论文(Best Paper)和最佳论文亚军(Best Paper Runner-up)。此次评选吸引了众多研究者的关注,共收到了15671篇有效论文投稿,比去年增长了27%,但最终接收率仅为25.8%。
最佳论文
论文1:《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》
– 作者: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
– 机构: 北京大学、字节跳动
– 论文链接: [https://arxiv.org/pdf/2404.02905](https://arxiv.org/pdf/2404.02905)
– 项目链接: [https://github.com/FoundationVision/VAR](https://github.com/FoundationVision/VAR)
该论文提出了一种新的视觉自回归生成模型——VAR(Visual AutoRegressive Modeling)。研究团队通过模仿人类处理图像的逻辑顺序,提出了由粗到细、由全局轮廓到局部精调的生成方式,使自回归模型在图像生成领域首次超越了扩散模型。VAR不仅在生成质量和速度上表现出色,还展现了类似于大语言模型的扩展定律和零样本任务泛化能力。
论文2:《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》
– 作者: Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
– 机构: 新加坡国立大学、Sea AI Lab
– 论文链接: [https://arxiv.org/abs/2412.00088](https://arxiv.org/abs/2412.00088)
– 项目链接: [https://github.com/sail-sg/stde](https://github.com/sail-sg/stde)
该论文提出了一种高效的随机泰勒导数估计器,用于处理包含高维和高阶微分算子的优化问题。通过正确构造单变量高阶自动微分输入切线,该方法能够有效随机化任意微分算子,显著提高了计算效率和内存利用率。在大规模问题中,如物理信息神经网络(PINN)的应用,该方法提供了超过1000倍的速度提升和30倍以上的内存减少。
最佳论文亚军
论文1:《Not All Tokens Are What You Need for Pretraining》
– 作者: Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
– 机构: 厦门大学、清华大学、微软
– 论文链接: [https://openreview.net/pdf?id=0NMzBwqaAJ](https://openreview.net/pdf?id=0NMzBwqaAJ)
– 项目链接: [https://github.com/microsoft/rho](https://github.com/microsoft/rho)
该论文挑战了传统的语言模型预训练方法,提出并非所有token都对训练同样重要。通过分析语言模型的token级训练动态,研究团队开发了一种选择性语言建模(SLM)方法,即RHO-1。RHO-1在数学任务上表现优异,仅用3%的预训练token就达到了DeepSeekMath的水平,显著提升了数据效率和模型性能。
论文2:《Guiding a Diffusion Model with a Bad Version of Itself》
– 作者: Tero Karras, Miika Aittala, Tuomas Kynkänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
– 机构: 英伟达、阿尔托大学
– 论文链接: [https://arxiv.org/pdf/2406.02507](https://arxiv.org/pdf/2406.02507)
该论文提出了一种新的扩散模型引导方法,通过使用较小、训练较少的模型版本来引导生成,从而在不影响多变程度的情况下提升图像质量。实验结果表明,该方法在ImageNet生成效果上取得了显著提升,创造了新的FID记录。
本文来源: 机器之心【阅读原文】