OpenAI发布最强推理模型o3,迈向通用人工智能(AGI)
12月21日,OpenAI在其连续12天的圣诞系列发布活动中,推出了迄今为止最强大的推理模型——o3。该模型在某些条件下接近通用人工智能(AGI),并展示了在编程、数学和逻辑推理方面的卓越表现。
OpenAI CEO Sam Altman表示:“我们相信这是AI发展下一阶段的开始,这些模型能够完成越来越复杂、需要大量推理的任务。” 特别是在编程方面,o3的表现令人惊叹,远远超过了之前的模型。
o3模型的特点与性能
o3继承了前代o1模型的思维链机制,通过逐步解释其逻辑推理过程来得出最准确的答案。它提供了完整版和mini版两种选择,用户可以根据需求设置不同的推理时间,以获得更好的效果。mini版则针对特定任务进行了优化,预计于1月底推出,而完整版将在不久后上线。
ARC-AGI测试中的出色表现
ARC-AGI是一项由Keras之父François Chollet发起的基准测试,旨在评估AI系统解决复杂数学和逻辑问题的能力。o3在高推理能力设置下取得了87.5%的分数,远超GPT-3的0%和GPT-4o的5%,展现了惊人的进步。即使在低推理能力设置下,o3的成绩也达到了o1的三倍,显示出其强大的适应性和灵活性。
实用性与成本
尽管o3在性能上表现出色,但其使用成本较高。在低推理模式下,每个任务的成本约为17-20美元(约合人民币124-145元),而在高推理模式下,成本更高。相比之下,人工解决相同任务的成本仅为几美分到5美元(约合人民币36元)。
其他基准测试中的优异成绩
除了ARC-AGI,o3在其他多个基准测试中也有出色表现。例如,在SWE-Bench Verified基准测试中,o3的准确率达到71.7%,比o1高出20%以上;在编程竞赛Codeforces中,o3的得分从o1的1891提升到了2727;在数学基准测试AIME 2024中,o3的准确率高达96.7%;在GPQA Diamond测试中,o3的准确率达到了87.7%,远超专业博士的平均水平。
审议对齐:提升模型安全性
为了确保o3的安全性,OpenAI提出了“审议对齐”(Deliberative Alignment)训练方法。这种方法结合了基于过程和结果的监督,使大模型在生成答案之前能够明确地通过安全规范进行复杂推理,从而克服传统训练方法中的不足。具体步骤包括:
1. 增量监督微调(SFT):训练模型学习安全规范的,并在推理时考虑这些规范。
2. 强化学习:引入奖励模型,让其可以访问安全策略来提供额外的奖励信号,从而更有效地思考和决策。
OpenAI的未来展望
OpenAI将继续与ARC-AGI背后的基金会合作,构建新的基准测试,并不断改进其模型。随着前沿技术的快速发展,o3及其后续版本将为全球AI竞赛注入新的动力。
本文来源: 智东西【阅读原文】