标签:奥数评测
【北大AI奥数评测新突破:o1-mini表现优异,超越o1-preview,助力Omni-MATH大型语言模型】
北大AI奥数评测:o1-mini比o1-preview分数更高 明敏 2024-09-23 08:51:52 来源:量子位 自从OpenAI发布了o1系列模型后,传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示,o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中,o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考:大模型是否能在更高难度的数学竞赛中表现出色? 为了解答这个问题,北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在...