深夜时分,OpenAI 发布了一个备受期待的新模型,这个新模型不再沿用之前的代号“草莓”,而是正式命名为“OpenAI o1”。OpenAI 表示:“这一进展在复杂推理任务中具有重要意义,标志着人工智能能力的新高度。因此,我们将计数器重置为1,并将其命名为 OpenAI o1。”
此次发布的 OpenAI o1 在性能上实现了重大突破,甚至超越了过去的 GPT 系列。例如,在 AIME 2024 数学竞赛中,GPT-4 的准确率为 13.4%,而 OpenAI o1 预览版的准确率达到了 56.7%,正式版更是达到了 83.3%。在代码竞赛中,GPT-4 的准确率为 11%,而 OpenAI o1 预览版则达到了 62%,正式版更是高达 89%。在博士级别的科学问题 GPQA Diamond 中,GPT-4 的得分是 56.1,而 OpenAI o1 达到了惊人的 78%。
OpenAI o1 的核心优势在于其采用了 Self-play RL 技术,使其能够更好地磨练其思维链并完善策略。它不仅能够识别和纠正错误,还能将复杂的问题分解为更简单的步骤,并在当前方法无效时尝试新的方法。这种能力类似于人类的“慢思考”,即需要努力、逻辑性和有意识的思考方式。这种思考方式在解决复杂问题时极为重要,比如解决复杂的数学题或编写复杂的代码。
OpenAI o1 的推出不仅在技术上实现了重大突破,还标志着 AI 行业进入了全新的纪元。它可以应用于多个领域,如医疗研究、物理学、软件开发等。例如,OpenAI o1 可以帮助医疗研究人员注释细胞测序数据,物理学家生成复杂的数学公式,以及开发人员构建多步骤工作流等。
目前,OpenAI o1 已经逐步向所有 ChatGPT Plus 和 Team 用户开放,分为两个版本:o1 预览版和 o1 mini。o1 mini 版本更快速、更小巧且更经济,非常适合处理数学和代码问题。o1 预览版每周提供 30 条请求,而 o1 mini 每周提供 50 条请求。对于开发者而言,目前仅对已支付 1000 美元的等级 5 开发者开放,每分钟限制 20 次请求。API 价格方面,o1 预览版每百万输入 15 美元,每百万输出 60 美元;o1 mini 则分别为 3 美元和 12 美元。
OpenAI o1 的强大性能使其在处理各种复杂问题时表现出色。例如,它能够完美解答农夫如何安全地将狼、羊和白菜带过河的问题,还能准确计算出调休天数。此外,在处理复杂的数学问题时,OpenAI o1 同样表现优异。
随着 OpenAI o1 的推出,未来的 Prompt 设计也需要重新调整。OpenAI 建议保持提示简单直接,避免使用复杂的思路链提示,并使用分隔符来提高清晰度。此外,限制检索增强生成(RAG)中的附加上下文也很重要。
OpenAI o1 的未来潜力巨大,它不仅仅是一个聊天机器人,而是通往 AGI 时代的基石。未来的 AI 可能会花费更多时间进行深入思考,从而实现更多的突破性成果。
本文来源: 数字生命卡兹克公众号【阅读原文】