OpenAI重磅发布o3模型，北大校友参与研发，再度突破AI技术与机器学习性能提升极限

OpenAI 发布 o3 系列模型：AI 领域的新里程碑
就在刚刚，OpenAI 在年底的 AI 春晚上发布了其最新的 o3 系列模型。作为 o1 的迭代版本，o3 跳过了可能与英国电信运营商 O2 产生版权或商标冲突的「o2」命名，直接采用了「o3」。OpenAI CEO Sam Altman 自嘲公司在模型命名方面的混乱，但这次发布无疑展示了 OpenAI 的技术实力和创新精神。

发布会由 Sam Altman、研究高级副总裁 Mark Chen 和研究科学家任泓宇主持。任泓宇本科毕业于北京大学，并在苹果、微软和英伟达有过丰富的研究实习经历，是 GPT-4o 和 o1 的核心开发者之一。

o3 系列模型的亮点与性能提升
o3 系列包含两款重磅模型：
– OpenAI o3：旗舰版本，具备强大的性能表现。
– OpenAI o3 mini：轻量级模型，主打性价比，速度更快且成本更低。

o3 模型在多个基准测试中表现出色，尤其是在编程和数学领域。例如，在 Codeforces 编程竞赛平台上，o3 的得分达到了 2727 分，远超 o1 的 1891 分。在 AIME 数学竞赛中，o3 的准确率也从 o1 的 83.3% 提升到了 90.67%。此外，o3 在 GPQA Diamond 测试中的成绩为 87.7%，而 o1 仅为 78%。

为了进一步挑战现有模型的极限，OpenAI 引入了 EpochAI Frontier Math 测试，这是当前最具挑战性的数学评估之一。尽管所有现有模型在这项测试中的准确率都不足 2%，但 o3 在高算力的长时间测试下取得了超过 2457 的分数。

AGI 基准测试：ARC-AGI
在 AI 领域的圣杯——通用人工智能（AGI）方面，o3 表现同样出色。ARC-AGI 是一个专门衡量 AGI 能力的基准测试，主要通过图形逻辑推理来测试模型的推理能力。o3 在低算力配置下的得分为 75.7 分，而在提高算力和思考时间后，得分提升至 87.5%，远超大多数真人。

o3 mini：灵活的推理时间和广泛应用
o3 mini 支持低、中、高三种推理时间模式，用户可以根据任务复杂度灵活调整模型的思考时间。在编程能力方面，o3 mini 在 Codeforces Elo 评分中随着推理时间的增加，其分数持续攀升。此外，o3 mini 还能自我评估，例如在 GPQA 数据集中，它以低推理模式完成了复杂数据集的评估，准确率达到 61.62%。

o3 mini 将于 1 月向所有用户推出，完整版 o3 则将在后续发布。目前，o3 系列仅向安全研究人员开放测试申请，截止日期为 1 月 10 日。

行业竞争与未来展望
尽管 OpenAI 在 AI 领域领先竞争对手约两年之久，但当前形势已经发生变化。ChatGPT 的市场份额逐渐被其他竞争对手蚕食，从 2023 年的 50% 下降到 2024 年的 34%。Anthropic 和 Google 等厂商陆续开发出性能接近 GPT-4 和 o1 的新模型，使得 OpenAI 的优势逐渐缩小。

不过，OpenAI 仍然保持着强劲的创新能力。o3 模型的发布再次证明了其在 AI 领域的领先地位。未来，随着更多新模型的推出，AI 行业的竞争将更加激烈，用户也将成为这场变局的最大赢家。

本文来源：