自2018年Mitchell Stern等人提出投机采样的概念以来,这一技术已成为加速大型语言模型(LLM)推理的关键方法之一。随着Lookahead Decoding、REST、Medusa 和 EAGLE 等后续工作的推进,投机采样的效能得到了显著提升。本文旨在解答一个核心问题:投机采样是否会影响LLM的原始准确度?
答案是:不会。
标准的投机采样算法在理论上和实践上都是无损的。接下来,我们将通过详细的数学分析和直观的图表解释来展示这一点。
投机采样的核心公式可定义如下:
– ( r ):从均匀分布中抽取的实数。
– ( x ):待预测的下一个token。
– ( p(x) ):草稿模型给出的下一个token的分布。
– ( q(x) ):基础模型给出的下一个token的分布。
简化起见,我们假设概率条件仅基于前缀token序列。
DeepMind的一篇论文详细展示了该公式的无损性质。若数学公式过于复杂,以下的图表可以帮助理解证明过程。
通过以上步骤,我们可以证明投机采样确实能够保留基础模型( q )的原始分布。
理论证明之外,实验也是检验投机采样效果的重要手段。本文进行了两种类型的实验:
1. 贪婪解码:使用确定性的方法,比较普通推理与投机采样下的结果一致性。
2. 多项式采样:通过大量随机采样,验证实际分布与理论分布的一致性。
实验结果支持了理论分析,证实了投机采样在加速LLM推理的同时,能够保持原始模型的准确性。
本文来源: 机器之心【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...