标签:PyTorch
寒武纪开源Torch-MLU:实现原生PyTorch支持与大模型一键迁移,助力AI生态发展
今日,寒武纪正式开源了PyTorch设备后端扩展插件Torch-MLU,并实现了对其硬件的原生支持,极大地提升了开发者的使用体验和集成效率。 早在2018年,寒武纪便开始了与PyTorch框架的集成适配工作。从PyTorch 1.3版本开始,寒武纪MLU系列智能加速卡就被纳入PyTorch的加速后端,使得开发者能够高效地将原本基于GPU的深度学习网络迁移到寒武纪MLU平台。 随着PyTorch 2.4版本的发布,结合新版本(≥ V1.22)的Torch-MLU插件,寒武纪硬件实现了对PyTorch的原生支持。现在,开发者不再需要安装定制版的Cambricon PyTorch,只需基于官...
国泰君安:预估 AI ASIC芯片的大规模应用将显著提升云服务提供商的投资回报率(ROI)- 着重于Transformer与PyTorch的角色
近期,国泰君安发布的一份研究报告指出,在人工智能(AI)领域,专用集成电路(ASIC)因其在能耗和成本上的显著优势,正成为行业内的优选方案。当前,AI算法正逐渐向Transformer架构集中,而深度学习框架则以PyTorch为主流,这些因素共同构成了推动AI ASIC发展的关键条件。 ASIC芯片的设计专门针对某一应用场景,并且拥有相配套的软硬件生态系统。尽管从单一芯片的角度来看,ASIC的计算能力相较于最先进的图形处理器(GPU)仍存在差距,但从整个集群的角度考虑,ASIC的计算能力利用率可能会更高。此外,ASIC还具有价格和能...
ByteCheckpoint: 豆包大模型团队与港大的新成果助力PyTorch下的AI大模型技术实现高效训练及故障恢复
最近,字节跳动豆包大模型团队与香港大学携手推出了ByteCheckpoint,这是一个针对大规模语言模型(LLM)的高效Checkpointing系统。该系统旨在优化大模型训练过程中的故障恢复机制,从而显著提高训练效率。根据Meta公司最新发布的研究报告显示,在一个由16384块H100 80GB GPU构成的训练集群上进行Llama3 405B模型训练时,短短54天内发生了419次训练中断,平均大约每3小时就会出现一次故障。因此,频繁的Checkpoint成为了应对高故障率的有效手段。 尽管Checkpoint对于减少训练进度损失至关重要,但传统Checkpoint技术却存在着...