标签：训练速度

NVIDIA全新nGPT助力大型语言模型训练速度大幅提升，归一化Transformer技术引领AI未来潮流，模型精度再创新高

快科技10月20日报道，NVIDIA的研究团队近期发布了一项可能彻底改变人工智能未来的创新成果——归一化Transformer（nGPT）。这一新型神经网络架构在超球面上进行表示学习，显著提升了大型语言模型（LLM）的训练速度，最高可达到20倍，同时保持了模型的精度。 nGPT的核心技术在于将所有向量，包括嵌入、多层感知机（MLP）、注意力矩阵和隐藏状态，归一化为单位范数。这种归一化处理使输入的token在超球面上移动，每一层模型通过位移来贡献最终的输出预测。实验结果显示，与标准Transformer模型相比，nGPT在训练时所需的步骤减少...

来源：

快科技【阅读原文】
Tags：Nvidia 大型语言模型归一化Transformer 模型精度训练速度

5个月前