标签：推理性能

NVIDIA Blackwell助力DeepSeek-R1模型，通过TensorRT-LLM优化GPU推理性能，树立AI行业新标杆

随着科技的飞速发展，人工智能领域不断迎来新的突破。近日，英伟达在 NVIDIA GTC 2025 大会上宣布了一项重大成果：其 NVIDIA Blackwell DGX 系统成功创下 DeepSeek-R1 大模型推理性能的世界纪录。这项成就不仅展示了硬件与软件结合的强大潜力，还为未来的高性能计算奠定了坚实的基础。具体来说，在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行的 DeepSeek-R1 模型（参数规模达到 6710 亿）实现了每用户每秒超 250 token 的响应速度，系统最高吞吐量更是突破了每秒 3 万 token。这一性能的提升得益于 NVIDIA 平台在最新...

来源：

1周前

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

特斯拉CEO马斯克近期推出了Grok模型的最新升级版——Grok 1.5，该模型在推理能力和上下文处理上实现了显著提升。新版本的Grok上下文长度增加至128k，与GPT-4相当，这意味着它可以更好地理解和处理复杂及长篇幅的输入。在推理性能上，Grok 1.5在数学和编程任务上的表现超过了GPT-4和其他一些知名大模型。在MATH和HumanEval基准测试中，Grok 1.5取得了优异的成绩。值得注意的是，Grok 1.5采用了独特的分布式训练架构，不依赖Python和Pytorch，而是利用Rust、JAX和Kubernetes进行构建，并拥有自定义训练协调器以提高训练效率和稳...

来源：

量子位【阅读原文】
Tags：GPT-4 Grok-1.5 上下文长度推理性能马斯克

1年前 (2024)