感谢IT之家网友 HH_KK 和华南吴彦祖提供的线索!
据《The Information》报道,英伟达新一代 Blackwell 处理器在高容量服务器机架中出现了严重的过热问题。这些问题导致设计调整和项目延期,使得谷歌、Meta 和微软等主要客户对是否能够按计划部署 Blackwell 服务器产生了担忧。知情人士透露,Blackwell GPU 主要用于人工智能(AI)和高性能计算(HPC),但在配置有 72 个处理器的服务器中出现了过热问题,每机架的功耗最高可达 120 千瓦。
过热问题迫使英伟达多次修改机架设计,这不仅限制了 GPU 的性能,还可能导致硬件损坏。客户因此担心,这些技术问题可能会延迟数据中心的处理器部署进程。为了应对这一挑战,英伟达要求供应商调整机架设计,并与合作伙伴一起优化散热系统。虽然这种工程改进是大规模技术发布中的常规步骤,但这也进一步推迟了产品的交付时间。
英伟达发言人对路透社表示,公司正在与云服务提供商密切合作,设计调整是正常研发流程的一部分。英伟达希望通过这种合作,确保最终产品在性能和可靠性方面达到预期,同时加快解决技术瓶颈。根据报道,修订后的 Blackwell GPU 于今年 10 月底开始量产,预计最快将于明年 1 月底出货。
谷歌、Meta、微软等科技巨头依赖英伟达 GPU 来训练其最强大的 AI 模型,因此英伟达的延期对这些客户的研发计划和产品发布造成了不可避免的影响。今年 3 月,英伟达展示了 Blackwell 芯片,并表示将在第二季度发货。相关阅读:《黄仁勋称英伟达 Blackwell 芯片曾存在设计缺陷,靠台积电力挽狂澜》
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...