揭秘中文提示词压缩技术:探索其在机器学习模型与大型语言模型(LLM)中的应用

提示工程机器学习模型中的一种关键技术,特别是对于预训练语言模型而言,通过精心设计输入提示(prompt)来引导模型生成预期的结果。在大规模语言模型的应用中,提示词通常是一段文本,用于指导模型生成特定的输出或完成特定任务。然而,在多文档搜索、问答系统、文档自动摘要生成以及阅读理解等复杂应用场景中,输入提示(prompt)长度显著增加,这不仅增加了大型语言模型(LLM)的推理成本,还延长了推理时间,限制了其在需要即时响应的应用场景中的实用性。

为了解决这一问题,优化提示设计变得尤为重要。例如,通过压缩技术精简关键信息、采用更高效的提示格式或结构,可以在保证模型性能的同时,满足实时性的需求。这些策略旨在确保大型语言模型在各种复杂场景下依然能够高效、准确地响应。

卓世科技创新推出的中文提示词压缩技术,旨在降低推理成本并提升推理速度,同时保证推理效果。其主要思路包括:

1. 定义长提示结构:将提示分解为指令、文档/示例和问题三部分。
2. 分布对齐:使用小型语言模型(small LLM)评估长提示各部分的重要性,并通过微调使小型语言模型更好地模拟大型语言模型的分布。
3. 多层压缩:
– 示例层次压缩:计算每个文档/示例中各段落与问题的相关性,保留得分最高的段落作为代表上下文,并计算文档/示例级别的困惑度,最终根据评分删除部分文档/示例。
– 重排序:根据评分对保留的文档进行重排序,确保高评分文档位于前面。
– 文档压缩率计算:用户可以自定义词语层次上的压缩率,按文档/示例的排序初始化每个文档/示例的压缩率。
– 词语层次压缩:计算每个token的条件困惑度差异,并使用双向最大匹配分词法,结合垂直领域内的专业词汇表进行分词,保留专业词汇,并对每个词语进行打分,最终压缩文档/示例。

经过这些步骤,压缩后的提示可以输入到大型语言模型中,获得响应。相比其他压缩方案,该技术更加适配中文词语粒度,尤其在垂直领域中可以避免丢失专业词汇,同时保证语义完整,有效提升了推理效率并节约了计算成本。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...