标签:RAG
RAG技术新突破:块状注意力机制大幅提升大型语言模型的推理效率与检索增强能力
在工业应用场景中,检索技术常被用来为大型语言模型(LLM)提供外部数据库的知识文档,以提高模型回答的可信度。目前,RAG(Retrieval-Augmented Generation)被认为是向 LLM 注入特定领域知识最有效的方法之一。然而,RAG 也存在一些缺点。为了确保召回包含正确信息的文档,通常每次用户查询都会检索多个文档(大约 5 到 30 个),并将这些文档整合到输入提示中。这导致输入提示的序列长度增加,从而使推理效率显著下降。具体来说,RAG 模型的首次生成标记时间(TTFT)明显高于非 RAG 模型。 为了解决这一问题,研究人员提...