10行代码让大模型数学提升20%，“野路子”研究谷歌也测上了

通过不到10行的代码，研究人员发现了一种能够使大模型数学能力（GSM8k）提升20%的方法，这一成果引起了开源社区的高度关注。几位独立学者提出的这项改进被称为最小p采样(min-p sampling)，它已经在Mistral-7B模型上取得了显著成效，并且正在Llama-70B模型上进行进一步测试。

平衡连贯性和多样性

最小p采样的核心目标在于平衡生成文本的连贯性和多样性。简而言之，该技术使得模型能够在处理事实问题时保持高度准确性，同时在创作等需要创意的场景中展现出更多变通性。这种方法已经在Mistral-7B模型上证明了有效性，并将在Llama-70B模型上继续验证。

动态调整抽样阈值

最小p采样是一种动态截断抽样方法，其关键在于根据每一步token分布的最大概率动态调整最小概率阈值。具体来说，该方法引入了一个基础概率阈值p_base，作为进入采样池的最低概率要求。在每次生成token时，p_base与当前概率分布中最大的token概率p_max相乘，得出一个缩放后的绝对阈值p_scaled。只有那些概率大于等于p_scaled的token才能进入采样池。当模型对某个token的预测概率非常高时，p_scaled也会相应提高，从而确保输出的连贯性；相反，当模型对所有token的预测概率相对平均时，p_scaled会降低，允许更多中等概率的token加入采样池，从而提高输出内容的多样性。

温度参数的作用

在确定采样池后，最小p采样还会根据温度参数τ调整token的概率分布。当τ大于1时，概率分布变得更加平滑，增加了低概率token被选中的可能性；当τ小于1时，则加强了高概率token的优势地位。最终，该方法根据调整后的概率分布从采样池中随机抽取下一个token。

测试结果展示

为了验证最小p采样的效果，研究者们使用Mistral-7B作为基础模型进行了多项测试。在推理任务中，使用GPQA数据集进行测试，结果显示最小p采样在temperature为1时相较于传统的top-p方法表现出轻微优势，并且随着temperature的增加，最小p采样的表现下降速度较慢。对于数学任务，使用GSM8K数据集测试的结果显示，最小p采样的分数虽然随temperature增加而下降，但仍优于top-p方法。而在创意写作任务中，采用AlpacaEval数据集进行测试，结果显示在特定参数设置下，最小p采样能够生成更具创意的内容，获得了较高的人类评判优选率。

本文来源：

量子位【阅读原文】

# 每日AI快讯 # 创意写作 # 多样性 # 大模型数学能力 # 最小p采样 # 连贯性

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

10行代码让大模型数学提升20%，“野路子”研究谷歌也测上了

天桥脑科学研究院推出AI驱动科学大奖！青年科学家以千字论文赢取3万美金，探索潜在诺贝尔奖得主在人工智能与科学研究领域的突破

全球顶级孵化器Y Combinator探讨：AI与大型语言模型的商业化潜力及投资价值

相关文章

暂无评论

AI最新资讯