OpenAI震撼发布全新o3模型，编程竞赛与数学能力测试迎来人工智能技术革新，一夜之间再次改变世界格局！

OpenAI发布全新预览版模型o3，实现多项技术突破

今天凌晨2点，OpenAI开启了为期12天的技术直播的最后一场。不负众望，OpenAI正式发布了全新的预览版模型——o3。根据测试数据显示，o3在多个领域取得了显著的进展。

首先，在美国AIME数学竞赛中，o3获得了96.7分，远超o1预览版的56.7分和o1的83.3%，仅错了一道题，相当于顶级数学家的水平。此外，在ARCAGI基准测试中，o3在低算力资源下实现了75.7%的准确率，而在增加计算资源后，这一数字提升至87.5%，首次超过了人类85%的水平，标志着重大技术突破。

有趣的是，OpenAI直接跳过了o2，直接发布了o3。主要原因是因为“o2”这个名字与英国著名电信公司O2发生了冲突，无法使用，因此直接推出了第三代模型。

o3在编程和科学领域的卓越表现

在软件风格基准测试中，o3在由真实世界软件任务组成的3benchverified基准测试里，准确率达到71.7%，相比o1提升了超过20%。在编程竞赛方面，o3在CodeForces网站上的ELO分数达到了2727，远超o1的1891分，甚至超越了OpenAI首席科学家Yakov的分数，接近公司内部顶尖编程高手的水平，表明o3具备出色的逻辑推理和算法实现能力。

在数学能力测试中，o3在Amy考试中的准确率高达96.7%，而o1为83.3%。这项高难度测试被视为美国数学奥林匹克预选考试，o3通常仅错一题，表现十分出色。在GPQADiamond基准测试中，o3取得了87.7%的准确率，比o1提高了约10%，甚至超越了领域专家博士通常能达到的70%的水平，显示其在复杂问题处理上已接近甚至超越人类专家水平。

ARCAGI基准测试中的里程碑式突破

在ARCAGI基准测试中，o3在低计算条件下得分为75.7%，当进一步提升计算能力时，得分更是高达87.5%。这一成绩尤为重要，因为人类在该测试中的表现阈值约为85%，o3模型的得分超过了这一阈值，标志着人工智能在该领域取得了新的里程碑。此前，ARCAGI版本一花费了五年时间才使领先的前沿模型从0%提升到5%，而o3的出色表现展示了OpenAI在人工智能技术研发上的巨大进步。

o3Mini：性能与成本平衡的高效模型

o3Mini模型在性能与成本平衡方面表现出色，能够以较低的成本提供高效的服务。在编码评估方面，o3Mini在CodeForces的评估中随着思考时间的增加，表现不断提升，逐渐超越了o1Mini模型。在中位思考时间下，o3Mini的性能甚至优于o1模型，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。

在数学能力测试中，o3Mini在2024年数据集上表现出色，性能与o1Mini相当，而中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时，o3Mini也能展现出一定的优势，实现了接近即时响应的效果。此外，o3Mini支持函数调用、结构化输出、开发者消息等一系列功能，与O1模型相当。

在实际应用中，o3Mini模型在大多数评估中实现了可比或更好的性能。在现场演示中，o3Mini的强大功能得到了直观展示。例如，在一项任务中，模型被要求使用Python实现一个代码生成器和执行器。当启动运行该Python脚本后，模型成功启动了本地服务器，并生成了包含文本框的用户界面。用户在文本框中输入编码请求后，模型能够迅速将请求发送至API，并自动解决任务，生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但o3Mini在低推理努力模式下依然表现出了极快的处理效率。

目前，该模型还处于安全测试阶段，从今天开始o3Mini模型率先开放给外部安全研究人员进行测试，随后o3模型也将参与其中。研究人员可通过访问OpenAI的官方网站，填写申请表格参与测试。

本文来源：