标签：推理效率

RAG技术新突破：块状注意力机制大幅提升大型语言模型的推理效率与检索增强能力

在工业应用场景中，检索技术常被用来为大型语言模型（LLM）提供外部数据库的知识文档，以提高模型回答的可信度。目前，RAG（Retrieval-Augmented Generation）被认为是向 LLM 注入特定领域知识最有效的方法之一。然而，RAG 也存在一些缺点。为了确保召回包含正确信息的文档，通常每次用户查询都会检索多个文档（大约 5 到 30 个），并将这些文档整合到输入提示中。这导致输入提示的序列长度增加，从而使推理效率显著下降。具体来说，RAG 模型的首次生成标记时间（TTFT）明显高于非 RAG 模型。为了解决这一问题，研究人员提...

来源：

机器之心【阅读原文】
Tags：Block-Attention RAG 大型语言模型推理效率检索增强

5个月前

谷歌震撼发布Gemma 2：270亿参数开源AI模型，极致推理效率引领业界，轻松运行于A100 / H100 GPU

谷歌近日向全球的研究者和开发者推出了全新的Gemma 2大语言模型，该模型具有两个版本，分别拥有90亿和270亿参数，相较于前一代，它在性能和效率上有了显著提升，同时在安全特性上取得了重要进展。据谷歌介绍，Gemma 2-27B模型的性能可与双倍规模的主流模型匹敌，但只需一片英伟达H100 Tensor Core GPU或TPU主机即可支持，大大降低了部署成本。对于资源有限的环境，谷歌即将推出26亿参数的Gemma 2模型，特别适合智能手机等AI应用。 Gemma 2的架构经过全面优化，旨在提供出色的性能和推理效率。27B版本在同类产品中表现出色，...

来源：

IT之家【阅读原文】
Tags：AI部署 Gemma 2 推理效率语言模型谷歌

9个月前