标签:o1-mini
【北大AI奥数评测新突破:o1-mini表现优异,超越o1-preview,助力Omni-MATH大型语言模型】
北大AI奥数评测:o1-mini比o1-preview分数更高 明敏 2024-09-23 08:51:52 来源:量子位 自从OpenAI发布了o1系列模型后,传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示,o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中,o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考:大模型是否能在更高难度的数学竞赛中表现出色? 为了解答这个问题,北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在...
OpenAI 再次领跑:o1-preview 和 o1-mini 在聊天机器人竞技场中展现强大实力,人工智能模型轻松应对数学与编程挑战
IT之家 9 月 20 日报道,据科技媒体 The Decoder 最新消息,在聊天机器人竞技场(Chatbot Arena)的最新评测中,OpenAI 推出的新一代人工智能模型 o1-preview 和 o1-mini 荣登榜首。 聊天机器人竞技场简介 聊天机器人竞技场是一个专门用于评估和比较各种人工智能模型性能的平台。该平台通过收集来自 6000 多位社区用户的评分数据,对新发布的 OpenAI 系统进行了全面测试。此次评测结果表明,o1-preview 和 o1-mini 在多项任务中表现突出,特别是在数学运算、复杂指令处理以及编程能力方面。 数学模型优势 评测结果显示...