标签:自然语言反馈

北大千问团队发布Math-Minos:数学验证器结合自然语言反馈,ORM与PRM助力CriticGPT提升,打造高效数学问题诊断工具

北京大学和千问团队近期发布了一款专为数学设计的CriticGPT变体——Math-Minos。这款工具借鉴了CriticGPT的思路,通过在数学问题中寻找错误并提供详尽的反馈,帮助大模型提高数学推理的准确性。在无需额外训练的情况下,Math-Minos能提升模型在GSM8K上的准确率至88.2%。 Math-Minos的核心策略是引入逐步的自然语言反馈作为错误解释,超越了传统二元分类标签的局限。它使用GPT-4生成初步的训练数据,并通过步骤级别的二元分类标签优化GPT-4的评估准确性。研究者首先通过监督式微调提升模型的评估能力,接着利用ORM和PRM训练实...