O3强势来袭！CodeForces排名跻身全球前200，破解EpochAI Frontier Math难题，北大校友任泓宇直播间精彩解析ARC-AGI挑战

OpenAI新一代模型o3发布：编程能力跻身全球顶尖，破解复杂数学难题

在2024年12月21日的“双12”直播活动最后一天，OpenAI正式发布了其下一代模型o3。这款新模型不仅在编程和逻辑推理方面取得了重大突破，还在最难的数学测试中展现了惊人的能力。

一、编程能力超越人类顶尖水平

o3在CodeForces竞赛中的分数超过了2700分，这一成绩在全球范围内只有不到200人能够达到。这标志着o3的编程能力已经跻身人类全球前200名。此外，o3在ARC-AGI测试中的表现也极为出色，从之前的32%提升到了75.7%和87.5%，分别对应低思考程度和高思考程度设置。ARC-AGI是由Keras之父François Chollet发起的一项图形逻辑推理测试，旨在评估人工智能的抽象推理能力。

二、破解陶哲轩说难的数学测试

o3在EpochAI Frontier Math测试中表现出色，这项测试包含最新未公开的前沿数学问题。此前，著名数学家陶哲轩曾认为这类题目可能会难住AI好几年。然而，o3却在短时间内成功解决了这些问题，从之前的SOTA（最佳现有技术）2分提升到了25分。这些题目对专业数学家来说也需要花费数小时甚至数天才能解决，而o3仅需几分钟。

三、o3-mini展示多思考程度设置

此次发布的o3-mini支持低、中、高三档思考程度设置，主要展示了其代码生成能力。在低设置下，o3-mini与o1-mini的表现相当；而在高设置下，o3-mini已经超越了o1正式版。北大校友任泓宇在直播间展示了o3-mini的强大编程能力，使用ChatGPT α编写了一个Python脚本，该脚本能够在本地启动一个带有大文本框的HTML文件服务器，并通过API调用o3-mini来生成代码并执行。

四、任泓宇博士的贡献

任泓宇博士是北大校友，目前担任OpenAI的研究科学家，主要负责语言模型训练，是GPT-4o的核心开发者之一。他去年加入OpenAI，之前曾在Apple、Google、NVIDIA和Microsoft等公司进行研究实习。在本次直播中，任泓宇还透露了他在九月份参与o1-mini开发的事实，证实了此前关于o1-mini由三位华人负责的传闻。

五、圣诞帽“青蛙”的趣味互动

直播活动的最后一天，顶着圣诞帽的“青蛙”成为了焦点。这些“青蛙”实际上在每一场直播中都存在，只是被摆放在后面的架子上。随着直播天数的增加，它们的数量也在不断增加。昨天是直播的第11天，观众们纷纷猜测究竟有多少个圣诞帽“青蛙”。

本文来源：