10行代码让大模型数学提升20%,“野路子”研究谷歌也测上了

少量代码显著提升大模型数学能力

通过不到10行的代码,研究人员发现了一种能够使大模型数学能力(GSM8k)提升20%的方法,这一成果引起了开源社区的高度关注。几位独立学者提出的这项改进被称为最小p采样(min-p sampling),它已经在Mistral-7B模型上取得了显著成效,并且正在Llama-70B模型上进行进一步测试。

平衡连贯性多样性

最小p采样的核心目标在于平衡生成文本的连贯性和多样性。简而言之,该技术使得模型能够在处理事实问题时保持高度准确性,同时在创作等需要创意的场景中展现出更多变通性。这种方法已经在Mistral-7B模型上证明了有效性,并将在Llama-70B模型上继续验证。

动态调整抽样阈值

最小p采样是一种动态截断抽样方法,其关键在于根据每一步token分布的最大概率动态调整最小概率阈值。具体来说,该方法引入了一个基础概率阈值p_base,作为进入采样池的最低概率要求。在每次生成token时,p_base与当前概率分布中最大的token概率p_max相乘,得出一个缩放后的绝对阈值p_scaled。只有那些概率大于等于p_scaled的token才能进入采样池。当模型对某个token的预测概率非常高时,p_scaled也会相应提高,从而确保输出的连贯性;相反,当模型对所有token的预测概率相对平均时,p_scaled会降低,允许更多中等概率的token加入采样池,从而提高输出内容的多样性。

温度参数的作用

在确定采样池后,最小p采样还会根据温度参数τ调整token的概率分布。当τ大于1时,概率分布变得更加平滑,增加了低概率token被选中的可能性;当τ小于1时,则加强了高概率token的优势地位。最终,该方法根据调整后的概率分布从采样池中随机抽取下一个token。

测试结果展示

为了验证最小p采样的效果,研究者们使用Mistral-7B作为基础模型进行了多项测试。在推理任务中,使用GPQA数据集进行测试,结果显示最小p采样在temperature为1时相较于传统的top-p方法表现出轻微优势,并且随着temperature的增加,最小p采样的表现下降速度较慢。对于数学任务,使用GSM8K数据集测试的结果显示,最小p采样的分数虽然随temperature增加而下降,但仍优于top-p方法。而在创意写作任务中,采用AlpacaEval数据集进行测试,结果显示在特定参数设置下,最小p采样能够生成更具创意的内容,获得了较高的人类评判优选率。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...