标签:推理性能
NVIDIA Blackwell助力DeepSeek-R1模型,通过TensorRT-LLM优化GPU推理性能,树立AI行业新标杆
随着科技的飞速发展,人工智能领域不断迎来新的突破。近日,英伟达在 NVIDIA GTC 2025 大会上宣布了一项重大成果:其 NVIDIA Blackwell DGX 系统成功创下 DeepSeek-R1 大模型推理性能的世界纪录。这项成就不仅展示了硬件与软件结合的强大潜力,还为未来的高性能计算奠定了坚实的基础。 具体来说,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行的 DeepSeek-R1 模型(参数规模达到 6710 亿)实现了每用户每秒超 250 token 的响应速度,系统最高吞吐量更是突破了每秒 3 万 token。这一性能的提升得益于 NVIDIA 平台在最新...
马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4
特斯拉CEO马斯克近期推出了Grok模型的最新升级版——Grok 1.5,该模型在推理能力和上下文处理上实现了显著提升。新版本的Grok上下文长度增加至128k,与GPT-4相当,这意味着它可以更好地理解和处理复杂及长篇幅的输入。在推理性能上,Grok 1.5在数学和编程任务上的表现超过了GPT-4和其他一些知名大模型。在MATH和HumanEval基准测试中,Grok 1.5取得了优异的成绩。值得注意的是,Grok 1.5采用了独特的分布式训练架构,不依赖Python和Pytorch,而是利用Rust、JAX和Kubernetes进行构建,并拥有自定义训练协调器以提高训练效率和稳...