随着科技的飞速发展,人工智能领域不断迎来新的突破。近日,英伟达在 NVIDIA GTC 2025 大会上宣布了一项重大成果:其 NVIDIA Blackwell DGX 系统成功创下 DeepSeek-R1 大模型推理性能的世界纪录。这项成就不仅展示了硬件与软件结合的强大潜力,还为未来的高性能计算奠定了坚实的基础。
具体来说,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行的 DeepSeek-R1 模型(参数规模达到 6710 亿)实现了每用户每秒超 250 token 的响应速度,系统最高吞吐量更是突破了每秒 3 万 token。这一性能的提升得益于 NVIDIA 平台在最新 Blackwell Ultra GPU 和 Blackwell GPU 上对推理极限的持续探索。
为了进一步优化性能,测试采用了 TensorRT-LLM 软件,并配置了 NVL8 单节点 DGX B200(8 块 GPU)和 DGX H200(8 块 GPU)。测试参数包括输入 1024 token / 输出 2048 token 的设置,而此前测试则采用输入 / 输出各 1024 token 的模式。此外,B200 使用 FP4 精度,H200 则采用 FP8 精度进行并发计算。
自 2025 年 1 月以来,通过硬件与软件的深度结合,英伟达成功将 DeepSeek-R1 671B 模型的吞吐量提升了约 36 倍。这种显著的进步不仅体现在单一节点配置上,还扩展到了多节点系统中。例如,DGX B200(8 块 GPU)、DGX H200(8 块 GPU)以及两个 DGX H100(8 块 GPU)共同组成的测试环境同样表现出色。测试参数延续了 TensorRT-LLM 内部版本,同时保持输入 1024 token / 输出 2048 token 的标准。值得注意的是,MAX 并发性计算精度分别为 B200 的 FP4 和 H100/H200 的 FP8。
与前代 Hopper 架构相比,Blackwell 架构与 TensorRT 软件的结合带来了显著的推理性能提升。以 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型为例,使用 FP4 精度的 DGX B200 平台相较于 DGX H200 平台提供了超过 3 倍的推理吞吐量提升。
在实际应用中,确保量化模型的精度损失最小化是实现高效生产部署的关键。根据英伟达提供的数据,在 DeepSeek-R1 模型上,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术能够在不同数据集上保持极低的精度损失,与 FP8 基准精度相比几乎可以忽略不计。
最后,IT之家提醒读者,文章中包含的对外跳转链接(如超链接、二维码或口令等形式)仅供传递更多信息,结果仅供参考。所有均遵循 IT 之家的标准声明。
本文来源: