北京大学和千问团队近期发布了一款专为数学设计的CriticGPT变体——Math-Minos。这款工具借鉴了CriticGPT的思路,通过在数学问题中寻找错误并提供详尽的反馈,帮助大模型提高数学推理的准确性。在无需额外训练的情况下,Math-Minos能提升模型在GSM8K上的准确率至88.2%。
Math-Minos的核心策略是引入逐步的自然语言反馈作为错误解释,超越了传统二元分类标签的局限。它使用GPT-4生成初步的训练数据,并通过步骤级别的二元分类标签优化GPT-4的评估准确性。研究者首先通过监督式微调提升模型的评估能力,接着利用ORM和PRM训练实现高效推理。这种方法不仅解耦了二分类数据和监督微调数据,还减少了对自然语言反馈的依赖,提高了推理效率。
实验结果显示,Math-Minos显著增强了验证器Mistral-7B的表现,尤其是在ORM任务中。它在GSM8K和MATH数据集上的准确率均有提升,特别是在处理累积错误方面显示出优势。此外,元评估集的测试表明,Math-Minos在无生成器影响下具备出色的最终答案判断能力,并展现出良好的扩展潜力。
Math-Minos的创新不仅优化了数学验证器,还为自然语言处理领域的训练方法开辟了新路径。研究人员期待这一工作能促进未来研究,探索自然语言反馈在复杂推理任务中的应用,进一步提升大模型的能力。
本文来源: 量子位【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...