OpenAI发布全新预览版模型o3,实现多项技术突破
今天凌晨2点,OpenAI开启了为期12天的技术直播的最后一场。不负众望,OpenAI正式发布了全新的预览版模型——o3。根据测试数据显示,o3在多个领域取得了显著的进展。
首先,在美国AIME数学竞赛中,o3获得了96.7分,远超o1预览版的56.7分和o1的83.3%,仅错了一道题,相当于顶级数学家的水平。此外,在ARCAGI基准测试中,o3在低算力资源下实现了75.7%的准确率,而在增加计算资源后,这一数字提升至87.5%,首次超过了人类85%的水平,标志着重大技术突破。
有趣的是,OpenAI直接跳过了o2,直接发布了o3。主要原因是因为“o2”这个名字与英国著名电信公司O2发生了冲突,无法使用,因此直接推出了第三代模型。
o3在编程和科学领域的卓越表现
在软件风格基准测试中,o3在由真实世界软件任务组成的3benchverified基准测试里,准确率达到71.7%,相比o1提升了超过20%。在编程竞赛方面,o3在CodeForces网站上的ELO分数达到了2727,远超o1的1891分,甚至超越了OpenAI首席科学家Yakov的分数,接近公司内部顶尖编程高手的水平,表明o3具备出色的逻辑推理和算法实现能力。
在数学能力测试中,o3在Amy考试中的准确率高达96.7%,而o1为83.3%。这项高难度测试被视为美国数学奥林匹克预选考试,o3通常仅错一题,表现十分出色。在GPQADiamond基准测试中,o3取得了87.7%的准确率,比o1提高了约10%,甚至超越了领域专家博士通常能达到的70%的水平,显示其在复杂问题处理上已接近甚至超越人类专家水平。
ARCAGI基准测试中的里程碑式突破
在ARCAGI基准测试中,o3在低计算条件下得分为75.7%,当进一步提升计算能力时,得分更是高达87.5%。这一成绩尤为重要,因为人类在该测试中的表现阈值约为85%,o3模型的得分超过了这一阈值,标志着人工智能在该领域取得了新的里程碑。此前,ARCAGI版本一花费了五年时间才使领先的前沿模型从0%提升到5%,而o3的出色表现展示了OpenAI在人工智能技术研发上的巨大进步。
o3Mini:性能与成本平衡的高效模型
o3Mini模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。在编码评估方面,o3Mini在CodeForces的评估中随着思考时间的增加,表现不断提升,逐渐超越了o1Mini模型。在中位思考时间下,o3Mini的性能甚至优于o1模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。
在数学能力测试中,o3Mini在2024年数据集上表现出色,性能与o1Mini相当,而中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时,o3Mini也能展现出一定的优势,实现了接近即时响应的效果。此外,o3Mini支持函数调用、结构化输出、开发者消息等一系列功能,与O1模型相当。
在实际应用中,o3Mini模型在大多数评估中实现了可比或更好的性能。在现场演示中,o3Mini的强大功能得到了直观展示。例如,在一项任务中,模型被要求使用Python实现一个代码生成器和执行器。当启动运行该Python脚本后,模型成功启动了本地服务器,并生成了包含文本框的用户界面。用户在文本框中输入编码请求后,模型能够迅速将请求发送至API,并自动解决任务,生成代码并保存至桌面,随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理,但o3Mini在低推理努力模式下依然表现出了极快的处理效率。
目前,该模型还处于安全测试阶段,从今天开始o3Mini模型率先开放给外部安全研究人员进行测试,随后o3模型也将参与其中。研究人员可通过访问OpenAI的官方网站,填写申请表格参与测试。
本文来源: AIGC开放社区公众号【阅读原文】