OpenAI 发布 o3 系列模型:AI 领域的新里程碑
就在刚刚,OpenAI 在年底的 AI 春晚上发布了其最新的 o3 系列模型。作为 o1 的迭代版本,o3 跳过了可能与英国电信运营商 O2 产生版权或商标冲突的「o2」命名,直接采用了「o3」。OpenAI CEO Sam Altman 自嘲公司在模型命名方面的混乱,但这次发布无疑展示了 OpenAI 的技术实力和创新精神。
发布会由 Sam Altman、研究高级副总裁 Mark Chen 和研究科学家任泓宇主持。任泓宇本科毕业于北京大学,并在苹果、微软和英伟达有过丰富的研究实习经历,是 GPT-4o 和 o1 的核心开发者之一。
o3 系列模型的亮点与性能提升
o3 系列包含两款重磅模型:
– OpenAI o3:旗舰版本,具备强大的性能表现。
– OpenAI o3 mini:轻量级模型,主打性价比,速度更快且成本更低。
o3 模型在多个基准测试中表现出色,尤其是在编程和数学领域。例如,在 Codeforces 编程竞赛平台上,o3 的得分达到了 2727 分,远超 o1 的 1891 分。在 AIME 数学竞赛中,o3 的准确率也从 o1 的 83.3% 提升到了 90.67%。此外,o3 在 GPQA Diamond 测试中的成绩为 87.7%,而 o1 仅为 78%。
为了进一步挑战现有模型的极限,OpenAI 引入了 EpochAI Frontier Math 测试,这是当前最具挑战性的数学评估之一。尽管所有现有模型在这项测试中的准确率都不足 2%,但 o3 在高算力的长时间测试下取得了超过 2457 的分数。
AGI 基准测试:ARC-AGI
在 AI 领域的圣杯——通用人工智能(AGI)方面,o3 表现同样出色。ARC-AGI 是一个专门衡量 AGI 能力的基准测试,主要通过图形逻辑推理来测试模型的推理能力。o3 在低算力配置下的得分为 75.7 分,而在提高算力和思考时间后,得分提升至 87.5%,远超大多数真人。
o3 mini:灵活的推理时间和广泛应用
o3 mini 支持低、中、高三种推理时间模式,用户可以根据任务复杂度灵活调整模型的思考时间。在编程能力方面,o3 mini 在 Codeforces Elo 评分中随着推理时间的增加,其分数持续攀升。此外,o3 mini 还能自我评估,例如在 GPQA 数据集中,它以低推理模式完成了复杂数据集的评估,准确率达到 61.62%。
o3 mini 将于 1 月向所有用户推出,完整版 o3 则将在后续发布。目前,o3 系列仅向安全研究人员开放测试申请,截止日期为 1 月 10 日。
行业竞争与未来展望
尽管 OpenAI 在 AI 领域领先竞争对手约两年之久,但当前形势已经发生变化。ChatGPT 的市场份额逐渐被其他竞争对手蚕食,从 2023 年的 50% 下降到 2024 年的 34%。Anthropic 和 Google 等厂商陆续开发出性能接近 GPT-4 和 o1 的新模型,使得 OpenAI 的优势逐渐缩小。
不过,OpenAI 仍然保持着强劲的创新能力。o3 模型的发布再次证明了其在 AI 领域的领先地位。未来,随着更多新模型的推出,AI 行业的竞争将更加激烈,用户也将成为这场变局的最大赢家。
本文来源: iFeng科技【阅读原文】