标签:– 反向传播替代

通过noise_step和低精度训练显著降低GPT-3算力需求,仅用20MB存储空间,这篇探讨1.58-bit模型训练及反向传播替代的分布式训练新论文引发热议

突破性技术:GPT-3存储只需20MB,算力直降97% 近期,一篇关于大幅降低大语言模型(LLM)训练和存储成本的新论文引起了广泛关注。这篇由机器学习研究者Will Brickner发表的论文提出了一项名为“noise_step”的新技术,能够在不损失精度的情况下,将1750亿参数的GPT-3模型压缩至仅需20MB的存储空间,并且显著减少算力消耗(下降97%)。 不依赖反向传播的新训练方法 传统的神经网络训练依赖于反向传播算法,通过逐层计算损失函数对每个权重的梯度来更新网络权重。然而,noise_step技术打破了这一传统,允许模型直接在低精度(...