【北大AI奥数评测新突破：o1-mini表现优异，超越o1-preview，助力Omni-MATH大型语言模型】

明敏
2024-09-23
08：51：52

来源：量子位

自从OpenAI发布了o1系列模型后，传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示，o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中，o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考：大模型是否能在更高难度的数学竞赛中表现出色？

为了解答这个问题，北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在奥林匹克水平数学推理方面的能力。评测集包含4428道竞赛级别的题目，涵盖33个以上的子领域，并分为10个不同的难度级别，以全面分析模型在不同数学学科和复杂度上的表现。

最新评测结果

在最新的评测结果中，尽管o1满血版尚未开放API，但o1-mini的表现尤为突出，平均分比o1-preview高出约8%。开源模型中，Qwen2-MATH-72b的表现甚至超过了GPT-4o。这些结果再次证明了专注于特定能力而非广泛知识的策略的有效性。

Omni-MATH的特点

Omni-MATH评测基准具有以下三个主要特点：

1. 人工验证答案的可靠性：所有4428道评测题目均来自不同的数学竞赛和论坛数据，并经过人工验证答案的准确性。此外，考虑到奥赛难度问题答案的多样性，评测集提供了基于GPT-4o和评测模型的评价方式，便于一键启动评测。
2. 清晰合理的难度分类：评测集整体具有较高挑战性，难度跨越非常大。从奥林匹克预备级别（T4）的CEMC到最高级别的IMO、IMC等比赛，这些赛事不仅要求参赛者具备扎实的数学基础，还需具备超强的逻辑推理能力和创造力。
3. 广泛的题目类型：评测集涵盖超过33个子领域的数学问题。研究团队根据数学领域的特性，打造了树状的领域分类，每个题目涉及一到多个领域，便于对模型在不同数学学科和复杂度上的表现进行细致分析。

构建评测集的过程

研究团队首先对国内外的奥林匹克数学竞赛进行了详细的调研，发现学生从竞赛预备到顶级竞赛需要经过层层选拔。例如，在英国体系中，学生需通过JMC → IMC → SMC → BMO 1 → BMO 2 → IMO等环节。在美国体系中，则需通过AMC 8 → AMC 10 → AMC 12 → AIME → USA(J)MO → IMO等环节。

基于这些调研结果，研究团队构建了Omni-MATH评测集，确保其难度层次分明。评测集的数据来源主要包括各种比赛的题目和题解，以及著名数学网站Art of Problem Solving。团队优先从题解中获取答案，若题解未公开，则从AoPS网站的论坛上爬取回复，并严格筛选确保答案的准确性。

数据处理过程中，研究团队使用Mathpix将PDF格式的题解转换成LaTeX格式，并用GPT-4o重新格式化论坛答案，再进行人工检查。评测集的难度分类严格按照AoPS网站上给出的不同比赛每道题的难度系数（从1到10之间）。未覆盖的则通过GPT-4o进行标注。

开源答案验证器

Omni-Judge是一个基于微调Llama3-Instruct的验证器，用于验证待测答案与给定答案的一致性。由于数学奥赛级别的题目回答形式多样，规则评测非常困难。研究团队利用GPT-4o生成的COT数据微调Llama3-Instruct，得到的验证器一致性高达95%，提供了更简便的评测方法。

参考链接

– 项目页面：https：//omni-math.github.io/
– Github：https：//github.com/KbsdJames/Omni-MATH/
– 数据集：https：//huggingface.co/datasets/KbsdJames/Omni-MATH/
– Omni-Judge：https：//huggingface.co/KbsdJames/Omni-Judge/

本文来源：