蚂蚁集团自研AI大模型采用国产芯片训练,混合专家MoE技术优化计算成本,深度解析开源技术优势与未来发展潜力

(由多段落组成)

蚂蚁集团近期在AI大模型领域取得了显著进展,针对媒体关于其百灵大模型训练成本的报道,蚂蚁方面向界面新闻回应称,公司正通过优化不同芯片性能来降低AI应用成本,并计划逐步通过开源方式分享技术成果。

据此前媒体报道,蚂蚁集团正在利用中国制造的半导体开发AI模型训练技术,预计可将成本降低20%。知情人士透露,蚂蚁集团采用了来自阿里巴巴和华为等厂商的芯片,并结合混合专家(MoE)机器学习方法进行模型训练。结果显示,这种方案能够达到与使用英伟达H800等高端芯片相似的效果。

尽管如此,蚂蚁集团目前仍在部分项目中使用英伟达产品,但其最新模型已更多依赖AMD及其他国产芯片作为替代方案。这一策略不仅降低了硬件依赖性,还提升了技术自主可控能力。

近日,蚂蚁集团CTO何征宇带领团队成功开发了两个开源MoE模型——Ling-Lite和Ling-Plus。其中,Ling-Lite参数规模为168亿,而Ling-Plus基座模型参数规模更是高达2900亿。相比之下,行业估算GPT-4.5参数量约为1.8万亿,DeepSeek-R1参数规模则为6710亿。

此外,蚂蚁团队的技术论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已在学术平台Arxiv上发布。该研究提出了一系列创新方法,旨在提升资源受限环境下AI开发的效率和可行性。实验表明,在使用国产低性能GPU的情况下,其3000亿参数的MoE模型训练效果与完全采用英伟达芯片训练的同规模模型相当。

作为国内较早布局AI大模型的企业之一,蚂蚁集团自研的百灵大模型已于2023年完成备案,主要应用于生活服务、金融服务和医疗健康等领域。这些应用场景不仅展现了蚂蚁在技术创新方面的实力,也为行业提供了更多可能性。

本文来源: 界面新闻【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...