北大千问团队发布Math-Minos：数学验证器结合自然语言反馈，ORM与PRM助力CriticGPT提升，打造高效数学问题诊断工具

每日AI快讯1年前 (2024)发布 AI部落小助手

北京大学和千问团队近期发布了一款专为数学设计的CriticGPT变体——Math-Minos。这款工具借鉴了CriticGPT的思路，通过在数学问题中寻找错误并提供详尽的反馈，帮助大模型提高数学推理的准确性。在无需额外训练的情况下，Math-Minos能提升模型在GSM8K上的准确率至88.2%。

Math-Minos的核心策略是引入逐步的自然语言反馈作为错误解释，超越了传统二元分类标签的局限。它使用GPT-4生成初步的训练数据，并通过步骤级别的二元分类标签优化GPT-4的评估准确性。研究者首先通过监督式微调提升模型的评估能力，接着利用ORM和PRM训练实现高效推理。这种方法不仅解耦了二分类数据和监督微调数据，还减少了对自然语言反馈的依赖，提高了推理效率。

实验结果显示，Math-Minos显著增强了验证器Mistral-7B的表现，尤其是在ORM任务中。它在GSM8K和MATH数据集上的准确率均有提升，特别是在处理累积错误方面显示出优势。此外，元评估集的测试表明，Math-Minos在无生成器影响下具备出色的最终答案判断能力，并展现出良好的扩展潜力。

Math-Minos的创新不仅优化了数学验证器，还为自然语言处理领域的训练方法开辟了新路径。研究人员期待这一工作能促进未来研究，探索自然语言反馈在复杂推理任务中的应用，进一步提升大模型的能力。

本文来源：