### O3强势来袭!CodeForces排名跻身全球前200,破解EpochAI Frontier Math难题,北大校友任泓宇直播间精彩解析ARC-AGI挑战
OpenAI新一代模型o3发布:编程能力跻身全球顶尖,破解复杂数学难题
在2024年12月21日的“双12”直播活动最后一天,OpenAI正式发布了其下一代模型o3。这款新模型不仅在编程和逻辑推理方面取得了重大突破,还在最难的数学测试中展现了惊人的能力。
一、编程能力超越人类顶尖水平
o3在CodeForces竞赛中的分数超过了2700分,这一成绩在全球范围内只有不到200人能够达到。这标志着o3的编程能力已经跻身人类全球前200名。此外,o3在ARC-AGI测试中的表现也极为出色,从之前的32%提升到了75.7%和87.5%,分别对应低思考程度和高思考程度设置。ARC-AGI是由Keras之父François Chollet发起的一项图形逻辑推理测试,旨在评估人工智能的抽象推理能力。
二、破解陶哲轩说难的数学测试
o3在EpochAI Frontier Math测试中表现出色,这项测试包含最新未公开的前沿数学问题。此前,著名数学家陶哲轩曾认为这类题目可能会难住AI好几年。然而,o3却在短时间内成功解决了这些问题,从之前的SOTA(最佳现有技术)2分提升到了25分。这些题目对专业数学家来说也需要花费数小时甚至数天才能解决,而o3仅需几分钟。
三、o3-mini展示多思考程度设置
此次发布的o3-mini支持低、中、高三档思考程度设置,主要展示了其代码生成能力。在低设置下,o3-mini与o1-mini的表现相当;而在高设置下,o3-mini已经超越了o1正式版。北大校友任泓宇在直播间展示了o3-mini的强大编程能力,使用ChatGPT α编写了一个Python脚本,该脚本能够在本地启动一个带有大文本框的HTML文件服务器,并通过API调用o3-mini来生成代码并执行。
四、任泓宇博士的贡献
任泓宇博士是北大校友,目前担任OpenAI的研究科学家,主要负责语言模型训练,是GPT-4o的核心开发者之一。他去年加入OpenAI,之前曾在Apple、Google、NVIDIA和Microsoft等公司进行研究实习。在本次直播中,任泓宇还透露了他在九月份参与o1-mini开发的事实,证实了此前关于o1-mini由三位华人负责的传闻。
五、圣诞帽“青蛙”的趣味互动
直播活动的最后一天,顶着圣诞帽的“青蛙”成为了焦点。这些“青蛙”实际上在每一场直播中都存在,只是被摆放在后面的架子上。随着直播天数的增加,它们的数量也在不断增加。昨天是直播的第11天,观众们纷纷猜测究竟有多少个圣诞帽“青蛙”。
本文来源: 量子位【阅读原文】