标签：PyTorch

寒武纪开源Torch-MLU：实现原生PyTorch支持与大模型一键迁移，助力AI生态发展

今日，寒武纪正式开源了PyTorch设备后端扩展插件Torch-MLU，并实现了对其硬件的原生支持，极大地提升了开发者的使用体验和集成效率。早在2018年，寒武纪便开始了与PyTorch框架的集成适配工作。从PyTorch 1.3版本开始，寒武纪MLU系列智能加速卡就被纳入PyTorch的加速后端，使得开发者能够高效地将原本基于GPU的深度学习网络迁移到寒武纪MLU平台。随着PyTorch 2.4版本的发布，结合新版本（≥ V1.22）的Torch-MLU插件，寒武纪硬件实现了对PyTorch的原生支持。现在，开发者不再需要安装定制版的Cambricon PyTorch，只需基于官...

来源：

智东西【阅读原文】
Tags：AI生态 PyTorch Torch-MLU 寒武纪开源

7个月前

国泰君安：预估 AI ASIC芯片的大规模应用将显著提升云服务提供商的投资回报率（ROI）- 着重于Transformer与PyTorch的角色

近期，国泰君安发布的一份研究报告指出，在人工智能（AI）领域，专用集成电路（ASIC）因其在能耗和成本上的显著优势，正成为行业内的优选方案。当前，AI算法正逐渐向Transformer架构集中，而深度学习框架则以PyTorch为主流，这些因素共同构成了推动AI ASIC发展的关键条件。 ASIC芯片的设计专门针对某一应用场景，并且拥有相配套的软硬件生态系统。尽管从单一芯片的角度来看，ASIC的计算能力相较于最先进的图形处理器（GPU）仍存在差距，但从整个集群的角度考虑，ASIC的计算能力利用率可能会更高。此外，ASIC还具有价格和能...

来源：

界面新闻【阅读原文】
Tags：AI ASIC芯片 PyTorch Transformer 云服务提供商投资回报率（ROI）

7个月前

ByteCheckpoint: 豆包大模型团队与港大的新成果助力PyTorch下的AI大模型技术实现高效训练及故障恢复

最近，字节跳动豆包大模型团队与香港大学携手推出了ByteCheckpoint，这是一个针对大规模语言模型（LLM）的高效Checkpointing系统。该系统旨在优化大模型训练过程中的故障恢复机制，从而显著提高训练效率。根据Meta公司最新发布的研究报告显示，在一个由16384块H100 80GB GPU构成的训练集群上进行Llama3 405B模型训练时，短短54天内发生了419次训练中断，平均大约每3小时就会出现一次故障。因此，频繁的Checkpoint成为了应对高故障率的有效手段。尽管Checkpoint对于减少训练进度损失至关重要，但传统Checkpoint技术却存在着...

来源：

量子位【阅读原文】
Tags：AI大模型技术 ByteCheckpoint PyTorch 大模型训练故障恢复

8个月前