标签：OpenAI o1

谷歌Gemini强势回归！新版AI模型评测跑分超越OpenAI o1登顶第一，机器学习竞赛再掀高潮

谷歌强势回归！新版Gemini跑分超o1登顶榜首，CEO：这只是开始一水 2024-11-15 13：28：32 来源：量子位网友：说好的碰壁呢？谷歌的新版Gemini模型在最新的竞技场评测中大放异彩，超越了OpenAI的o1，强势登顶总榜第一！经过6000多名网友的匿名投票，Gemini不仅在数学成绩上与o1相当，还在其他五个单项中取得了第一名。新模型名为Gemini（Exp 1114），成绩公布后，CEO皮猜亲自到场庆祝。竞技场官方也第一时间发布了喜讯，祝贺谷歌取得这一非凡成就。这一结果让许多人大跌眼镜。此前，谷歌被认为遇到了发展瓶颈，但...

来源：

量子位【阅读原文】
Tags：- AI模型评测 - 人工智能竞赛 OpenAI o1 机器学习谷歌Gemini

5个月前

利用OpenAI o1动态思维链与反思技巧，通过语言强化学习和提示技术提升普通LLM的复杂推理能力

近日，一篇关于利用纯提示方法让普通大型语言模型（LLM）具备复杂推理能力的文章在推特上引起了广泛关注。九月份，OpenAI推出了全新的o1系列模型，该模型专攻复杂的推理任务，一经发布便在大模型竞技场上大放异彩。在数学、编程、科学等高难度任务中，o1的表现远超GPT-4和其他人类专家。然而，高昂的使用成本成为了其普及的一大障碍。o1-preview的每百万输入token费用为15美元，每百万输出token费用为60美元，而GPT-4分别为5美元和15美元。为了应对这一问题，有人提出了利用开源代码和特定提示方法来增强普通LLM的推理能力...

来源：

新智元公众号【阅读原文】
Tags：OpenAI o1 动态思维链反思提示技术语言强化学习

5个月前

【PlanBench 实测报告：OpenAI o1 规划能力卓越，准确率高达 97.8%，显著超越 LLaMA 3.1 405B 在 Blocksworld 中创造的 62.6% 纪录】

IT之家报道，亚利桑那州立大学的研究团队利用 PlanBench 基准测试了 OpenAI 的 o1 模型在规划任务上的表现。结果显示，尽管 o1 模型取得了显著进展，但仍存在一些局限性。 PlanBench 基准简介 PlanBench 是在 2022 年开发的一种基准工具，用于评估人工智能系统的规划能力。它包含了来自 Blocksworld 领域的 600 个任务，其中积木需要按照特定顺序堆叠。通过这些任务，可以全面评估模型的规划性能。 OpenAI o1 模型的成绩在 Blocksworld 任务中，OpenAI 的 o1 模型表现出色，准确率达到了 97.8%，远高于之前最好的语言...

来源：

IT之家【阅读原文】
Tags：Blocksworld OpenAI o1 PlanBench 准确率规划能力

6个月前

OpenAI发布o1模型：引领复杂推理与Self-play RL新时代，慢思考助力AGI技术突破

深夜时分，OpenAI 发布了一个备受期待的新模型，这个新模型不再沿用之前的代号“草莓”，而是正式命名为“OpenAI o1”。OpenAI 表示：“这一进展在复杂推理任务中具有重要意义，标志着人工智能能力的新高度。因此，我们将计数器重置为1，并将其命名为 OpenAI o1。” 此次发布的 OpenAI o1 在性能上实现了重大突破，甚至超越了过去的 GPT 系列。例如，在 AIME 2024 数学竞赛中，GPT-4 的准确率为 13.4%，而 OpenAI o1 预览版的准确率达到了 56.7%，正式版更是达到了 83.3%。在代码竞赛中，GPT-4 的准确率为 11%，而 OpenAI o1 预览...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：AGI OpenAI o1 Self-play RL 复杂推理慢思考

7个月前