标签:TensorRT-LLM
NNVIDIA Blackwell助力DeepSeek-R1模型,通过TensorRT-LLM优化GPU推理性能,树立AI行业新标杆
随着科技的飞速发展,人工智能领域不断迎来新的突破。近日,英伟达在 NVIDIA GTC 2025 大会上宣布了一项重大成果:其 NVIDIA Blackwell DGX 系统成功创下 DeepSeek-R1 大模型推理性能的世界纪录。这项成就不仅展示了硬件与软件结合的强大潜力,还为未来的高性能计算奠定了坚实的基础。 具体来说,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行的 DeepSeek-R1 模型(参数规模达到 6710 亿)实现了每用户每秒超 250 token 的响应速度,系统最高吞吐量更是突破了每秒 3 万 token。这一性能的提升得益于 NVIDIA 平台在最新...