标签：Self-play RL

OpenAI发布o1模型：引领复杂推理与Self-play RL新时代，慢思考助力AGI技术突破

深夜时分，OpenAI 发布了一个备受期待的新模型，这个新模型不再沿用之前的代号“草莓”，而是正式命名为“OpenAI o1”。OpenAI 表示：“这一进展在复杂推理任务中具有重要意义，标志着人工智能能力的新高度。因此，我们将计数器重置为1，并将其命名为 OpenAI o1。” 此次发布的 OpenAI o1 在性能上实现了重大突破，甚至超越了过去的 GPT 系列。例如，在 AIME 2024 数学竞赛中，GPT-4 的准确率为 13.4%，而 OpenAI o1 预览版的准确率达到了 56.7%，正式版更是达到了 83.3%。在代码竞赛中，GPT-4 的准确率为 11%，而 OpenAI o1 预览...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：AGI OpenAI o1 Self-play RL 复杂推理慢思考

7个月前