NVIDIA全新nGPT助力大型语言模型训练速度大幅提升,归一化Transformer技术引领AI未来潮流,模型精度再创新高

快科技10月20日报道,NVIDIA的研究团队近期发布了一项可能彻底改变人工智能未来的创新成果——归一化Transformer(nGPT)。这一新型神经网络架构在超球面上进行表示学习,显著提升了大型语言模型(LLM)的训练速度,最高可达到20倍,同时保持了模型的精度。

nGPT的核心技术在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。这种归一化处理使输入的token在超球面上移动,每一层模型通过位移来贡献最终的输出预测。实验结果显示,与标准Transformer模型相比,nGPT在训练时所需的步骤减少了4到20倍,具体加速效果取决于序列长度。

例如,在1000个上下文环境中,训练速度提高了4倍;在4000个上下文环境中,提高了10倍;在8000个上下文环境中,更是达到了20倍的提升。研究人员强调,nGPT的优化路径从超球面上的点开始,通过位移来贡献最终的输出预测,位移量由MLP和注意力模块定义。这种方法不仅大幅提升了训练速度,还增强了模型的稳定性。

本文来源: 快科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...