标签：奥数评测

【北大AI奥数评测新突破：o1-mini表现优异，超越o1-preview，助力Omni-MATH大型语言模型】

北大AI奥数评测：o1-mini比o1-preview分数更高明敏 2024-09-23 08：51：52 来源：量子位自从OpenAI发布了o1系列模型后，传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示，o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中，o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考：大模型是否能在更高难度的数学竞赛中表现出色？为了解答这个问题，北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在...

来源：

量子位【阅读原文】
Tags：o1-mini Omni-MATH 北大AI 大型语言模型奥数评测

6个月前