马斯克19天神速组装10万块英伟达H100,打造Colossus超级计算机,采用液冷机架与高速网络,未来规模还将扩大一倍

全球最大AI超级计算机首次揭秘!马斯克19天神速搭建10万块H100,未来规模将翻倍

近日,特斯拉创始人埃隆·马斯克再次震撼科技界,他领导的xAI公司与英伟达合作,成功搭建了全球最大的AI超级计算机——Colossus。这台超级计算机不仅在短短19天内完成了10万块H100 GPU的安装,而且未来还将进一步扩展至20万块GPU,其中包括最新的H200型号。这一消息一经公布,立刻引发了广泛关注。

Colossus超级计算机位于美国田纳西州孟菲斯,配备了10万个英伟达Hopper GPU,并通过英伟达Spectrum-X以太网进行网络传输支持。目前,Colossus的第一阶段建设已经完成,集群全面上线,但马斯克表示,这只是开始。未来,Colossus将新增5万块H100 GPU和5万块H200 GPU,使GPU总量翻倍,进一步提升计算能力。

Colossus的主要任务是训练xAI的Grok模型,并为X Premium订阅用户提供聊天机器人功能。在训练过程中,Colossus展现出了卓越的网络性能。即使在网络流量冲突的情况下,系统也没有出现任何应用延迟降级或数据包丢失,始终保持了95%的数据吞吐量。这一性能水平远超标准以太网,后者在传输中常常产生数千次流量冲突,数据吞吐量仅为60%。

Colossus的核心构建单元是Supermicro液冷机架。每个机架包含八台4U服务器,每台服务器配备八个英伟达H100 GPU,总计64个GPU。这些机架以八台为一组排列,共512个GPU,并通过网络连接,形成更大的集群。Supermicro 4U通用GPU系统是当前市场上最先进的AI服务器之一,其优势在于液冷技术和高可维护性。系统被放置在托盘上,无需从机架中移出即可进行维护。1U机架分流器负责为每个系统引入冷却液并排出温热液体,快速断开装置使得液冷系统可以迅速移除,甚至可以单手操作。

在网络方面,Colossus采用了400GbE光纤连接,每条连接的速率是普通1GbE网络的400倍。每个系统拥有9条这样的连接,这意味着每台GPU计算服务器的带宽达到约3.6Tbps。如果将1GbE的普通家庭网络比作一条单车道公路,那么400GbE就像是拥有400车道的高速公路,而每台GPU计算服务器拥有9条这样的“高速公路”,总带宽达到3.6Tbps。这一带宽甚至超过了2021年初顶级Intel Xeon服务器处理器在所有PCIe通道上的连接总量。

为了确保数据传输的高效性和准确性,Colossus采用了英伟达BlueField-3 SuperNIC和Spectrum-X网络。英伟达的网络堆栈中加入了一些独特技术,帮助数据绕过集群中的瓶颈,确保数据准确地传输到指定位置。这一设计在高性能计算集群中非常常见,同时也是一项重大突破。除了高速集群网络外,Colossus还配备了低速网络用于管理接口和环境设备,这些都是此类集群的重要组成部分。

尽管Colossus的某些细节因保密协议而未公开,但ServeTheHome发布的15分钟视频详细介绍了这台超级计算机的关键部件和技术。Patrick Kennedy在视频中对Supermicro的液冷系统设计给予了高度评价,认为其遥遥领先于其他系统。

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...