国产大模型突破:清华团队推出基于国产芯片的清程极智赤兔引擎,大幅提升大模型推理引擎效率,FP8模型适配更灵活,DeepSeek推理成本减半速度翻番

随着技术的不断进步,「国产大模型 + 国产引擎 + 国产芯片」的技术闭环正在加速形成。DeepSeek 的推出引发了市场对大模型私有化部署的热烈讨论,而模型部署的效率与成本成为了企业 AI 落地的关键瓶颈。

近日,清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源了一款名为「赤兔」(Chitu)的大模型推理引擎。这一引擎首次实现了非 H 卡设备(如英伟达 Hopper 架构之前的 GPU 卡以及各类国产卡)运行原生 FP8 模型的突破。在 A800 集群上的实测数据显示,使用赤兔引擎部署 DeepSeek-671B 满血版推理服务时,相比 vLLM 部署方案,GPU 数量减少了 50%,但输出速度却提升了 3.15 倍。

赤兔引擎的代码已发布至 GitHub 开源社区:https://github.com/thu-pacman/chitu。作为国产大模型基础设施的一个重要里程碑,赤兔引擎为业界提供了全新的国产开源选择。当前,构建完整的自主可控 AI 技术栈已成为国家战略性需求。尽管 DeepSeek、QwQ 等国产开源大模型正在重塑全球科技产业格局,但在大模型推理部署领域,业界仍高度依赖国外开源工具。

清程极智 CEO 汤雄超表示:“我们看到国内大模型领域取得了显著进步,但在基础设施层面,尤其是推理引擎这一核心环节,仍然缺乏生产级开源产品。开源赤兔引擎是我们助力国内 AI 生态建设的重要一步。”

翟季冬教授长期致力于高性能计算与系统软件优化研究。他指出:“赤兔引擎凝聚了团队多年的并行计算与编译优化技术积累,目标是建立一个真正适合国内多元算力环境的高性能推理引擎,弥合先进模型与多样化硬件之间的差距,为中国大模型的产业落地提供关键支撑。”

本次开源版本特别针对当前市场需求,实现 DeepSeek FP8 精度模型在存量英伟达 GPU 上的无损高效部署。团队还透露,针对多款国产芯片优化的版本也将相继对外开源。这一突破不仅降低了大模型落地门槛,也为国产 AI 算力的发展带来了新的契机。

赤兔引擎的核心优势在于全场景性能优化和架构适应性。随着 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度训练并发布,企业面临新的部署挑战。这些 FP8 模型针对 NVIDIA Hopper 架构(H100/H200)深度定制,在其他硬件上部署时需要额外适配。

汤雄超表示:“最先进的模型与最难获取的硬件绑定,这是当前企业大模型落地的最大痛点之一。”此外,现有开源推理引擎对多元算力环境的支持不足。vLLM 等主流引擎主要针对 NVIDIA 最新架构优化,对国产芯片或较老款 GPU 的适配并不理想。

赤兔引擎从一开始就定位于“生产级大模型推理引擎”,专注于提供以下特性:多元算力适配、全场景可伸缩和长期稳定运行。在性能优化方面,赤兔支持“低延迟优化”、“高吞吐优化”和“小显存优化”,能够根据不同场景需求提供最优解决方案。

在实际部署中,赤兔引擎可以根据系统资源状况,在 GPU 利用率、内存效率和网络传输之间寻找最佳平衡点。本次开源的技术突破是实现非 H 卡设备原生运行 DeepSeek FP8 精度模型。汤雄超表示:“我们没有走简单的量化路线,而是通过在算子内部高效处理 FP8 数据,确保模型推理质量不受任何影响。”

在 A800 集群上的实测结果表明,与 vLLM 相比,赤兔引擎实现 DeepSeek-671B 满血版推理所需 GPU 数量减少 50%,但推理速度却达到其 3.15 倍。这意味着企业可以用一半的硬件资源获得更高的推理性能,极大降低了部署门槛和运营成本。

清程极智希望通过开源方式回馈社区,并将更多实际业务中的经验分享给开发者。汤雄超表示:“无论用什么卡,赤兔都是高性价比的选择。”

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...