标签：大模型推理

清华团队利用强化学习与PRIME算法，仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4

清华团队利用强化学习让7B模型数学能力超越GPT-4o，仅需一万块钱！近日，清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。该方法不依赖任何蒸馏数据和模仿学习，仅用8张A100显卡，在不到10天的时间内，花费大约一万块钱，成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。强化学习与大模型推理能力的突破随着OpenAI o1和o3模型的发布，强化学习已被证明能够使大...

来源：

量子位【阅读原文】
Tags：Eurus-2-7B-PRIME PRIME算法大模型推理强化学习过程奖励

2天前