标签：– 反向传播替代

通过noise_step和低精度训练显著降低GPT-3算力需求，仅用20MB存储空间，这篇探讨1.58-bit模型训练及反向传播替代的分布式训练新论文引发热议

突破性技术：GPT-3存储只需20MB，算力直降97% 近期，一篇关于大幅降低大语言模型（LLM）训练和存储成本的新论文引起了广泛关注。这篇由机器学习研究者Will Brickner发表的论文提出了一项名为“noise_step”的新技术，能够在不损失精度的情况下，将1750亿参数的GPT-3模型压缩至仅需20MB的存储空间，并且显著减少算力消耗（下降97%）。不依赖反向传播的新训练方法传统的神经网络训练依赖于反向传播算法，通过逐层计算损失函数对每个权重的梯度来更新网络权重。然而，noise_step技术打破了这一传统，允许模型直接在低精度（...

来源：

12个月前