马斯克19天神速组装10万块英伟达H100，打造Colossus超级计算机，采用液冷机架与高速网络，未来规模还将扩大一倍

全球最大AI超级计算机首次揭秘！马斯克19天神速搭建10万块H100，未来规模将翻倍

近日，特斯拉创始人埃隆·马斯克再次震撼科技界，他领导的xAI公司与英伟达合作，成功搭建了全球最大的AI超级计算机——Colossus。这台超级计算机不仅在短短19天内完成了10万块H100 GPU的安装，而且未来还将进一步扩展至20万块GPU，其中包括最新的H200型号。这一消息一经公布，立刻引发了广泛关注。

Colossus超级计算机位于美国田纳西州孟菲斯，配备了10万个英伟达Hopper GPU，并通过英伟达Spectrum-X以太网进行网络传输支持。目前，Colossus的第一阶段建设已经完成，集群全面上线，但马斯克表示，这只是开始。未来，Colossus将新增5万块H100 GPU和5万块H200 GPU，使GPU总量翻倍，进一步提升计算能力。

Colossus的主要任务是训练xAI的Grok模型，并为X Premium订阅用户提供聊天机器人功能。在训练过程中，Colossus展现出了卓越的网络性能。即使在网络流量冲突的情况下，系统也没有出现任何应用延迟降级或数据包丢失，始终保持了95%的数据吞吐量。这一性能水平远超标准以太网，后者在传输中常常产生数千次流量冲突，数据吞吐量仅为60%。

Colossus的核心构建单元是Supermicro液冷机架。每个机架包含八台4U服务器，每台服务器配备八个英伟达H100 GPU，总计64个GPU。这些机架以八台为一组排列，共512个GPU，并通过网络连接，形成更大的集群。Supermicro 4U通用GPU系统是当前市场上最先进的AI服务器之一，其优势在于液冷技术和高可维护性。系统被放置在托盘上，无需从机架中移出即可进行维护。1U机架分流器负责为每个系统引入冷却液并排出温热液体，快速断开装置使得液冷系统可以迅速移除，甚至可以单手操作。

在网络方面，Colossus采用了400GbE光纤连接，每条连接的速率是普通1GbE网络的400倍。每个系统拥有9条这样的连接，这意味着每台GPU计算服务器的带宽达到约3.6Tbps。如果将1GbE的普通家庭网络比作一条单车道公路，那么400GbE就像是拥有400车道的高速公路，而每台GPU计算服务器拥有9条这样的“高速公路”，总带宽达到3.6Tbps。这一带宽甚至超过了2021年初顶级Intel Xeon服务器处理器在所有PCIe通道上的连接总量。

为了确保数据传输的高效性和准确性，Colossus采用了英伟达BlueField-3 SuperNIC和Spectrum-X网络。英伟达的网络堆栈中加入了一些独特技术，帮助数据绕过集群中的瓶颈，确保数据准确地传输到指定位置。这一设计在高性能计算集群中非常常见，同时也是一项重大突破。除了高速集群网络外，Colossus还配备了低速网络用于管理接口和环境设备，这些都是此类集群的重要组成部分。

尽管Colossus的某些细节因保密协议而未公开，但ServeTheHome发布的15分钟视频详细介绍了这台超级计算机的关键部件和技术。Patrick Kennedy在视频中对Supermicro的液冷系统设计给予了高度评价，认为其遥遥领先于其他系统。

本文来源：

iFeng科技【阅读原文】

# 每日AI快讯 # - Colossus超级计算机 # - 液冷机架 # - 高速网络 # 英伟达H100 # 马斯克

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

马斯克19天神速组装10万块英伟达H100，打造Colossus超级计算机，采用液冷机架与高速网络，未来规模还将扩大一倍

秋季招聘热潮中，高薪AI人才需求旺盛，1186万高校毕业生迎来机遇与挑战，尤其在量化行业和新能源汽车领域

ChatGPT升级为AI搜索引擎，OpenAI推出GPT-4o，网页、手机、桌面版全面上线，搜索功能即将人人可用

相关文章

暂无评论

AI最新资讯