国产GPU赋能大模型训练,蚂蚁Ling模型训练成本优化揭秘——张志强研究员详细回应

(由多段落组成)

第一段
蚂蚁国产GPU训练大模型的细节近日被曝光!Ling模型的研发负责人张志强在知乎上作出回应,分享了他们在大模型训练中的经验和教训。文章中提到,蚂蚁推出的两款MoE大模型能够在国产GPU上实现与英伟达同等效果的训练,甚至成本更低。这一消息引发了技术圈的广泛关注,并登上热搜。

第二段
张志强在知乎发布的长文中详细介绍了他们如何通过优化FLOPS来提升训练效率。他表示,无论是在GPU还是国产加速卡上,LLM的训练成本优化都是一个无止境的过程。通过一系列的技术努力,蚂蚁团队成功地将国产加速卡的训练成本降低至与GPU相当甚至更低,同时保证了Loss收敛的一致性。

第三段
为了实现跨平台无缝切换训练,团队进行了严格的训练正确性对齐工作。他们设定了非常严格的标准,包括基础算子完全对齐、分布式训练框架前后向计算完全对齐以及大规模训练长跑Loss差异低于0.1%。此外,团队还修复了Router TP(Tensor Parallelism)中的bug,解决了NormHead迁移问题,并设计了两种尖刺处理机制以提高训练稳定性。

第四段
关于成本计算,张志强指出团队采用了学术界通行的方法进行计算。根据真实训练记录和不同加速卡的单位时间成本,可以得出在不同平台上训练单位token量的成本。他还强调,无论是使用GPU还是国产加速卡,LLM的训练成本优化都具有很大的空间。

第五段
展望未来,蚂蚁团队计划进一步改进其工作。DeepSeek在训练经济性方面的提升为他们提供了灵感,而兄弟团队基于强化学习的AReaL项目也已开源。这些成果都将陆续发布在inclusionAI org中。张志强表示,每个AI研发工程师都相信AGI的到来,并希望普惠大众。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...