最近,OpenAI 发布的新模型 O1 在 LMSYS 竞技场的评测中取得了令人瞩目的成绩。O1 预览版(O1-preview)凭借其出色的性能,在多个领域稳居榜首,超越了最新的 GPT-4 版本。特别是在数学、复杂提示处理和编码领域,O1-preview 表现尤为突出。
O1-mini 虽然名称中有“mini”,但其综合排名与最新版 GPT-4 并列第二,同样在多个领域名列前茅。这一结果充分展示了 O1 模型在通用推理领域的强大实力。LMSYS 社区对此评价极高,称其为“难以置信的里程碑”。
详细评测数据
为了更直观地展示 O1-preview 的优势,LMSYS 进行了详细的胜率统计。结果显示,O1-preview 对所有模型的胜率均超过 50%,特别是对 04-09 版 GPT-4-Turbo 的胜率高达 88%。相比之下,O1-mini 对 O1-preview 的胜率为 46%,对 09-03 版 GPT-4 的胜率为 48%,表现稍逊一筹。
尽管 Grok-2-mini 和 Claude3.5Sonnet 排名较后,但 O1-preview 对这两个模型的胜率分别为 58% 和 57%,远低于排名第四的 Gemini1.5Pro 的 69%。
在数学和推理领域的细分排行榜中,O1-preview 和 O1-mini 的表现更为出色。两者不仅登顶数学排行榜,还以绝对的优势领先其他模型。O1-preview 和 O1-mini 的得分接近 1360 分,而其他模型如 Claude3.5Sonnet、Gemini1.5Pro 和 08-08 版 ChatGPT-4 的平均得分仅为 1275 分左右。
O1 推理团队的领导者之一 William Fedus 对此表示非常满意,他认为这些数据很好地展示了技术的进步。
编码能力及代码公开
O1 模型在编程领域的表现同样亮眼。OpenAI 提到,如果放宽提交限制,O1 可以达到甚至超过 IOI 金牌水平。在 Codeforces 编程竞赛中,O1-preview 打败了 62% 的人类选手,正式版 O1 则超越了 89% 的对手。经过专门微调的 O1-ioi 模型更是优于 93% 的竞争对手。
不久前,有用户在实时的 Codeforces 比赛中使用了 O1 模型,结果超越了 99.8% 的人类选手。鉴于 O1 在编程竞赛中的优异表现,OpenAI 公开了 O1 模型提交的代码,包括 6 个问题的全部 C++ 代码及其注释。
O1 模型的核心贡献者 Alexander Wei 对此表示惊讶,他曾在 9 年前参加过 IOI 竞赛,没想到现在需要与 AI 竞争。他认为 O1 展现出的推理过程非常复杂且令人印象深刻。
用户反馈与展望
尽管 O1 模型表现出色,但也有用户对其推理时间和主观评分提出了质疑。一些用户认为 O1 的推理时间较长,与其他模型相比存在差异。此外,LMSYS 社区的评分基于用户主观意见,可能存在一定的“安慰剂效应”。
然而,O1 在编码领域的表现仍然得到了广泛认可。例如,有用户尝试让 O1 复现自己的论文代码,结果发现 O1 只用了一个小时就完成了原本需要一年的工作。Reddit 用户也纷纷表示期待 O1 正式版的到来。
本文来源: 新智元公众号【阅读原文】