清华团队利用强化学习与PRIME算法,仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4,详细解读过程奖励机制及其未来应用前景
清华团队利用强化学习让7B模型数学能力超越GPT-4o,仅需一万块钱!
近日,清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME(Process Reinforcement through IMplicit REwards)。该方法不依赖任何蒸馏数据和模仿学习,仅用8张A100显卡,在不到10天的时间内,花费大约一万块钱,成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。
强化学习与大模型推理能力的突破
随着OpenAI o1和o3模型的发布,强化学习已被证明能够使大模型具备像人类一样的快速迭代试错和深度思考能力。当前基于模仿学习的Scaling Law逐渐受到质疑,而探索性的强化学习则有望带来新的Scaling Law。PRIME方法通过隐式过程奖励解决了强化学习中的两个关键挑战:如何获得精准且可扩展的密集奖励,以及如何设计可以充分利用这些奖励的强化学习算法。
PRIME方法的三大优势
PRIME算法利用隐式过程奖励模型,为每个token提供价值估计,从而在无需额外训练价值模型的情况下提供过程奖励。其三大优势包括:
1. 过程奖励:隐式过程奖励模型能够在提供过程奖励的同时,无需训练额外的价值模型。
2. 可扩展性:只需结果标签即可在线更新,有效缓解分布偏移问题。
3. 简洁性:隐式过程奖励模型本质上是语言模型,可以直接用初始策略模型初始化PRM。
实验结果显著提升
实验结果显示,PRIME算法相比仅用结果监督的方法,采样效率提升了2.5倍,并在下游任务上也有显著提升。此外,研究人员还验证了PRM在线更新的重要性,进一步证明了PRIME算法的设计合理性和有效性。
展望未来
PRIME方法的成功不仅展示了强化学习在提升大模型复杂推理能力方面的潜力,也预示着未来可能训练出接近OpenAI o1水平的模型。该项目一经开源便在海外AI社区爆火,短短几天内获得了近300个Star。
示例演示
研究人员使用Qwen2.5-Math-7B-Base作为基座模型,训练出了新模型Eurus-2-7B-PRIME,并在美国IMO选拔考试AIME 2024上的准确率达到26.7%,大幅超越其他模型。
本文来源: 量子位【阅读原文】