OpenAI O1模型在LMSYS竞技场全面登顶，编码能力和数学推理超越Claude及谷歌模型，O1-mini表现同样卓越

最近，OpenAI 发布的新模型 O1 在 LMSYS 竞技场的评测中取得了令人瞩目的成绩。O1 预览版（O1-preview）凭借其出色的性能，在多个领域稳居榜首，超越了最新的 GPT-4 版本。特别是在数学、复杂提示处理和编码领域，O1-preview 表现尤为突出。

O1-mini 虽然名称中有“mini”，但其综合排名与最新版 GPT-4 并列第二，同样在多个领域名列前茅。这一结果充分展示了 O1 模型在通用推理领域的强大实力。LMSYS 社区对此评价极高，称其为“难以置信的里程碑”。

详细评测数据

为了更直观地展示 O1-preview 的优势，LMSYS 进行了详细的胜率统计。结果显示，O1-preview 对所有模型的胜率均超过 50%，特别是对 04-09 版 GPT-4-Turbo 的胜率高达 88%。相比之下，O1-mini 对 O1-preview 的胜率为 46%，对 09-03 版 GPT-4 的胜率为 48%，表现稍逊一筹。

尽管 Grok-2-mini 和 Claude3.5Sonnet 排名较后，但 O1-preview 对这两个模型的胜率分别为 58% 和 57%，远低于排名第四的 Gemini1.5Pro 的 69%。

在数学和推理领域的细分排行榜中，O1-preview 和 O1-mini 的表现更为出色。两者不仅登顶数学排行榜，还以绝对的优势领先其他模型。O1-preview 和 O1-mini 的得分接近 1360 分，而其他模型如 Claude3.5Sonnet、Gemini1.5Pro 和 08-08 版 ChatGPT-4 的平均得分仅为 1275 分左右。

O1 推理团队的领导者之一 William Fedus 对此表示非常满意，他认为这些数据很好地展示了技术的进步。

编码能力及代码公开

O1 模型在编程领域的表现同样亮眼。OpenAI 提到，如果放宽提交限制，O1 可以达到甚至超过 IOI 金牌水平。在 Codeforces 编程竞赛中，O1-preview 打败了 62% 的人类选手，正式版 O1 则超越了 89% 的对手。经过专门微调的 O1-ioi 模型更是优于 93% 的竞争对手。

不久前，有用户在实时的 Codeforces 比赛中使用了 O1 模型，结果超越了 99.8% 的人类选手。鉴于 O1 在编程竞赛中的优异表现，OpenAI 公开了 O1 模型提交的代码，包括 6 个问题的全部 C++ 代码及其注释。

O1 模型的核心贡献者 Alexander Wei 对此表示惊讶，他曾在 9 年前参加过 IOI 竞赛，没想到现在需要与 AI 竞争。他认为 O1 展现出的推理过程非常复杂且令人印象深刻。

用户反馈与展望

尽管 O1 模型表现出色，但也有用户对其推理时间和主观评分提出了质疑。一些用户认为 O1 的推理时间较长，与其他模型相比存在差异。此外，LMSYS 社区的评分基于用户主观意见，可能存在一定的“安慰剂效应”。

然而，O1 在编码领域的表现仍然得到了广泛认可。例如，有用户尝试让 O1 复现自己的论文代码，结果发现 O1 只用了一个小时就完成了原本需要一年的工作。Reddit 用户也纷纷表示期待 O1 正式版的到来。

本文来源：

新智元公众号【阅读原文】

# 每日AI快讯 # LMSYS 竞技场 # o1 模型 # OpenAI # 数学推理 # 编码能力

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

OpenAI O1模型在LMSYS竞技场全面登顶，编码能力和数学推理超越Claude及谷歌模型，O1-mini表现同样卓越

半导体行业龙头公司集体路演：深度解析人工智能推动下的业绩展望、产品研发与市场拓展

广告烧钱过亿，70%用户靠投流，大模型算不过成本账？ —— AI助手、Kими、豆包与智谱清言的小模型策略深度解析

相关文章

暂无评论

AI最新资讯