标签:BF16
N通过创新的FP4训练框架和低精度量化技术,微软实现大模型训练成本大幅降低,性能媲美BF16,混合精度设计助力高效训练
微软推出首个FP4精度大模型训练框架,显著降低计算和存储成本 近日,微软研究院推出了首个支持FP4(4位浮点)精度的大模型训练框架。这一创新使得在相同超参数设置下,训练效果与FP8和BF16相当,大幅减少了所需的存储和计算资源。这意味着模型规模最高可达130亿参数,训练Tokens数量也达到了千亿级别。 尽管目前尚无原生支持FP4的硬件,研究人员通过在FP8 TensorCore上模拟实现了FP4训练。未来,如果采用真正的FP4硬件,效果有望进一步提升。不少网友表示,这种方法不仅提高了效率,还几乎不损失训练质量,堪称“游戏规则改...