近日,NeurIPS 官方宣布了 2024 年度的时间检验奖,首次同时授予了两篇具有里程碑意义的论文。一篇是 Ian Goodfellow 的生成对抗网络(GAN),另一篇则是 Ilya Sutskever 的序列到序列学习(Seq2Seq)。这两篇论文在十年前发表,如今获奖可谓实至名归。
NeurIPS 主席 Jeff Dean 表示:“今年,我们破例颁发了两篇时间检验论文奖,因为这两篇论文对整个领域的影响毋庸置疑。”
论文 1:生成对抗网络(GAN)
获得 NeurIPS 时间检验奖的其中一篇论文是《Generative Adversarial Nets》,作者包括 AI 领域的大佬 Ian J. Goodfellow、Yoshua Bengio 等。Ian Goodfellow 在斯坦福大学完成了本科和硕士学位,师从吴恩达,博士阶段则在 Yoshua Bengio 的指导下研究机器学习。2014 年 6 月,Goodfellow 提出了生成对抗网络(GAN),这一技术在图像生成领域取得了重大突破,能够生成高度逼真的动物、风景和人脸图像。GAN 的概念迅速引发了一系列变体,成为机器学习界的热门话题,相关论文层出不穷。
Goodfellow 曾在 OpenAI、谷歌和苹果等多家科技公司担任重要职务。2022 年离开苹果后,他重返 Google DeepMind 担任研究科学家。截至目前,GAN 论文已被引用超过 85000 次,是生成模型领域的奠基之作,推动了过去十年的大量研究进展。除了学术影响,GAN 还极大地促进了生成模型在视觉数据和其他领域的应用。
论文简介: 本文提出了一种新的框架,通过对抗过程来估计生成模型。该框架同时训练两个模型:一个生成模型 G,用于捕捉数据分布;一个判别模型 D,用于估计样本是否来自训练数据或生成模型。生成模型的目标是最大化判别模型出错的概率。该框架对应于一个极小极大双人博弈。在任意函数 G 和 D 的空间中,存在唯一解,即 G 恢复训练数据分布,D 处处等于 1/2。在 G 和 D 由多层感知器定义的情况下,整个系统可以通过反向传播进行训练。训练过程中无需使用马尔可夫链或近似推理网络。生成对抗网络的小批量随机梯度下降训练算法如下:
![生成对抗网络示意图](https://arxiv.org/pdf/1406.2661)
论文 2:序列到序列学习(Seq2Seq)
另一篇获得 NeurIPS 时间检验奖的论文是由 Ilya Sutskever、Oriol Vinyals 和 Quoc V. Le 在谷歌合作完成的《Sequence to Sequence Learning with Neural Networks》。当时,谷歌收购了 Hinton 的公司 DNNResearch,并聘请 Ilya Sutskever 担任谷歌大脑研究科学家。Sutskever 加入谷歌后,专注于序列建模问题,尤其是在语音、文本和视频等领域的应用。2014 年,Sutskever 与谷歌研究员 Oriol Vinyals 和 Quoc Le 一起提出了 Seq2Seq 学习,该方法将输入的序列结构映射到同样具有序列结构的输出,例如将英文句子翻译成法文句子。这一研究开启了 RNN 在语言任务中的广泛应用。
论文简介: 深度神经网络(DNN)是一种强大的模型,在复杂的学习任务中表现出色。然而,传统的 DNN 无法处理将序列映射到序列的任务。本文提出了一种通用的端到端序列学习方法,对序列结构的假设最少。该方法使用多层长短期记忆(LSTM)将输入序列映射到固定维度的向量,然后再使用另一个深度 LSTM 从该向量解码目标序列。实验结果显示,在 WMT’14 英语到法语翻译任务中,LSTM 生成的翻译在整个测试集上的 BLEU 得分为 34.8,而基于短语的统计机器翻译系统的 BLEU 得分为 33.3。当使用 LSTM 对 SMT 系统产生的 1000 个假设进行重新排序时,BLEU 得分进一步提升至 36.5,接近此前的最佳结果。此外,LSTM 还学会了对词序敏感且对主动语态和被动语态相对不变的短语和句子表示。作者还发现,反转源句子中的单词顺序可以显著提高 LSTM 的性能,因为这样可以在源句子和目标句子之间引入许多短期依赖关系,从而简化优化问题。
随着大型语言模型和基础模型的快速发展,人工智能及其应用正在经历范式转变,Seq2Seq 为这一变革奠定了基础。目前,该论文已被引用超过 27000 次,为编码器-解码器架构的提出奠定了基石,并启发了后续基于注意力机制的研究,推动了当前基础模型研究的蓬勃发展。
本文来源: 机器之心【阅读原文】