NVIDIA全新nGPT助力大型语言模型训练速度大幅提升，归一化Transformer技术引领AI未来潮流，模型精度再创新高

快科技10月20日报道，NVIDIA的研究团队近期发布了一项可能彻底改变人工智能未来的创新成果——归一化Transformer（nGPT）。这一新型神经网络架构在超球面上进行表示学习，显著提升了大型语言模型（LLM）的训练速度，最高可达到20倍，同时保持了模型的精度。

nGPT的核心技术在于将所有向量，包括嵌入、多层感知机（MLP）、注意力矩阵和隐藏状态，归一化为单位范数。这种归一化处理使输入的token在超球面上移动，每一层模型通过位移来贡献最终的输出预测。实验结果显示，与标准Transformer模型相比，nGPT在训练时所需的步骤减少了4到20倍，具体加速效果取决于序列长度。

例如，在1000个上下文环境中，训练速度提高了4倍；在4000个上下文环境中，提高了10倍；在8000个上下文环境中，更是达到了20倍的提升。研究人员强调，nGPT的优化路径从超球面上的点开始，通过位移来贡献最终的输出预测，位移量由MLP和注意力模块定义。这种方法不仅大幅提升了训练速度，还增强了模型的稳定性。

本文来源：