探究投机采样对大型语言模型推理精度的无损性：数学证明与实验验证

自2018年Mitchell Stern等人提出投机采样的概念以来，这一技术已成为加速大型语言模型（LLM）推理的关键方法之一。随着Lookahead Decoding、REST、Medusa 和 EAGLE 等后续工作的推进，投机采样的效能得到了显著提升。本文旨在解答一个核心问题：投机采样是否会影响LLM的原始准确度？

答案是：不会。

标准的投机采样算法在理论上和实践上都是无损的。接下来，我们将通过详细的数学分析和直观的图表解释来展示这一点。

数学证明：投机采样的无损性

投机采样的核心公式可定义如下：

– ( r )：从均匀分布中抽取的实数。
– ( x )：待预测的下一个token。
– ( p(x) )：草稿模型给出的下一个token的分布。
– ( q(x) )：基础模型给出的下一个token的分布。

简化起见，我们假设概率条件仅基于前缀token序列。

DeepMind的一篇论文详细展示了该公式的无损性质。若数学公式过于复杂，以下的图表可以帮助理解证明过程。

通过以上步骤，我们可以证明投机采样确实能够保留基础模型( q )的原始分布。

实验验证

理论证明之外，实验也是检验投机采样效果的重要手段。本文进行了两种类型的实验：

1. 贪婪解码：使用确定性的方法，比较普通推理与投机采样下的结果一致性。
2. 多项式采样：通过大量随机采样，验证实际分布与理论分布的一致性。

实验结果支持了理论分析，证实了投机采样在加速LLM推理的同时，能够保持原始模型的准确性。