北大AI奥数评测:o1-mini比o1-preview分数更高
明敏
2024-09-23
08:51:52
来源:量子位
自从OpenAI发布了o1系列模型后,传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示,o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中,o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考:大模型是否能在更高难度的数学竞赛中表现出色?
为了解答这个问题,北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在奥林匹克水平数学推理方面的能力。评测集包含4428道竞赛级别的题目,涵盖33个以上的子领域,并分为10个不同的难度级别,以全面分析模型在不同数学学科和复杂度上的表现。
最新评测结果
在最新的评测结果中,尽管o1满血版尚未开放API,但o1-mini的表现尤为突出,平均分比o1-preview高出约8%。开源模型中,Qwen2-MATH-72b的表现甚至超过了GPT-4o。这些结果再次证明了专注于特定能力而非广泛知识的策略的有效性。
Omni-MATH的特点
Omni-MATH评测基准具有以下三个主要特点:
1. 人工验证答案的可靠性:所有4428道评测题目均来自不同的数学竞赛和论坛数据,并经过人工验证答案的准确性。此外,考虑到奥赛难度问题答案的多样性,评测集提供了基于GPT-4o和评测模型的评价方式,便于一键启动评测。
2. 清晰合理的难度分类:评测集整体具有较高挑战性,难度跨越非常大。从奥林匹克预备级别(T4)的CEMC到最高级别的IMO、IMC等比赛,这些赛事不仅要求参赛者具备扎实的数学基础,还需具备超强的逻辑推理能力和创造力。
3. 广泛的题目类型:评测集涵盖超过33个子领域的数学问题。研究团队根据数学领域的特性,打造了树状的领域分类,每个题目涉及一到多个领域,便于对模型在不同数学学科和复杂度上的表现进行细致分析。
构建评测集的过程
研究团队首先对国内外的奥林匹克数学竞赛进行了详细的调研,发现学生从竞赛预备到顶级竞赛需要经过层层选拔。例如,在英国体系中,学生需通过JMC → IMC → SMC → BMO 1 → BMO 2 → IMO等环节。在美国体系中,则需通过AMC 8 → AMC 10 → AMC 12 → AIME → USA(J)MO → IMO等环节。
基于这些调研结果,研究团队构建了Omni-MATH评测集,确保其难度层次分明。评测集的数据来源主要包括各种比赛的题目和题解,以及著名数学网站Art of Problem Solving。团队优先从题解中获取答案,若题解未公开,则从AoPS网站的论坛上爬取回复,并严格筛选确保答案的准确性。
数据处理过程中,研究团队使用Mathpix将PDF格式的题解转换成LaTeX格式,并用GPT-4o重新格式化论坛答案,再进行人工检查。评测集的难度分类严格按照AoPS网站上给出的不同比赛每道题的难度系数(从1到10之间)。未覆盖的则通过GPT-4o进行标注。
开源答案验证器
Omni-Judge是一个基于微调Llama3-Instruct的验证器,用于验证待测答案与给定答案的一致性。由于数学奥赛级别的题目回答形式多样,规则评测非常困难。研究团队利用GPT-4o生成的COT数据微调Llama3-Instruct,得到的验证器一致性高达95%,提供了更简便的评测方法。
参考链接
– 项目页面:https://omni-math.github.io/
– Github:https://github.com/KbsdJames/Omni-MATH/
– 数据集:https://huggingface.co/datasets/KbsdJames/Omni-MATH/
– Omni-Judge:https://huggingface.co/KbsdJames/Omni-Judge/