OpenAI o1模型引发轰动：陶哲轩亲测强化学习成果，门萨智商测试得分高达100，实力问鼎榜首

近日，OpenAI 的最新模型 o1 在门萨智商测试中取得了优异的成绩，排名第一。著名数学家陶哲轩对其进行了实测，发现 o1 能够成功识别克莱姆定理。此外，OpenAI 的研究副总裁 Mark Chen 表示，大型神经网络可能已经具备足够的算力，在测试中表现出一定的意识。

测试结果对比

Maxim Lott 对多个 AI 模型进行了门萨智商测试，结果显示，o1 以绝对优势位居榜首，其次是 Claude-3Opus 和 Bing Copilot。这套测试题并未出现在任何 AI 训练数据中，因此测试结果具有很高的参考价值。

陶哲轩的实测结果

著名数学家陶哲轩对 o1 进行了一系列实测，发现其在数学问题上的表现非常出色。例如，在面对一个措辞模糊的数学问题时，o1 成功识别出了克莱姆定理，并给出了令人满意的解答。相比之下，之前的 GPT 系列模型虽然能够提到一些相关概念，但细节往往是编造的无意义。

计算机教授 Tom Yeh 的动画解析

科罗拉多大学博尔德分校的计算机教授 Tom Yeh 制作了一个动画，详细解析了 OpenAI 如何训练 o1 模型进行长时间思考。动画展示了通过强化学习（RL）和思维链（CoT）的方法，使 o1 在推理阶段能够生成更复杂的思维链，从而提高了模型的表现。

团队分享的“啊哈”时刻

在发布 o1 模型后，OpenAI 团队分享了他们在研发过程中的“啊哈”时刻。这些关键时刻通常是在模型取得重大突破时发生的，比如首次生成连贯的 CoT 时，所有人惊喜交加，感受到模型的巨大进步。

团队 AMA 活动

为了回应用户的疑问，OpenAI o1 团队在 X 上组织了一场 AMA（Ask Me Anything）活动。用户们提出了许多关键问题，如如何控制模型思考的时间、模型的推理机制等。团队成员对这些问题进行了详细的回答，并表示会继续改进模型的功能。

o1 模型的未来发展

OpenAI 团队表示，未来版本的 o1 将支持更大的输入上下文、更长的任务处理能力以及多模态能力。此外，还会引入更多的工具支持和结构化输出功能，以便用户更好地控制模型的行为。

用户反馈和最佳实践

用户们发现 o1 在处理复杂任务和从有限指令中泛化的能力非常强大。研究人员还发现 o1 在哲学推理和泛化能力方面表现出色，如破译密码等任务。未来，OpenAI 将继续优化模型，提高其在各种任务中的表现。

本文来源：

新智元公众号【阅读原文】

文章版权归作者所有，未经允许请勿转载。

523

230

275

253

552

暂无评论

您必须登录才能参与评论！

暂无评论...