标签:OpenAI o1

【PlanBench 实测报告:OpenAI o1 规划能力卓越,准确率高达 97.8%,显著超越 LLaMA 3.1 405B 在 Blocksworld 中创造的 62.6% 纪录】

IT之家报道,亚利桑那州立大学的研究团队利用 PlanBench 基准测试了 OpenAI 的 o1 模型在规划任务上的表现。结果显示,尽管 o1 模型取得了显著进展,但仍存在一些局限性。 PlanBench 基准简介 PlanBench 是在 2022 年开发的一种基准工具,用于评估人工智能系统的规划能力。它包含了来自 Blocksworld 领域的 600 个任务,其中积木需要按照特定顺序堆叠。通过这些任务,可以全面评估模型的规划性能。 OpenAI o1 模型的成绩 在 Blocksworld 任务中,OpenAI 的 o1 模型表现出色,准确率达到了 97.8%,远高于之前最好的语言...

OpenAI发布o1模型:引领复杂推理与Self-play RL新时代,慢思考助力AGI技术突破

深夜时分,OpenAI 发布了一个备受期待的新模型,这个新模型不再沿用之前的代号“草莓”,而是正式命名为“OpenAI o1”。OpenAI 表示:“这一进展在复杂推理任务中具有重要意义,标志着人工智能能力的新高度。因此,我们将计数器重置为1,并将其命名为 OpenAI o1。” 此次发布的 OpenAI o1 在性能上实现了重大突破,甚至超越了过去的 GPT 系列。例如,在 AIME 2024 数学竞赛中,GPT-4 的准确率为 13.4%,而 OpenAI o1 预览版的准确率达到了 56.7%,正式版更是达到了 83.3%。在代码竞赛中,GPT-4 的准确率为 11%,而 OpenAI o1 预览...