OpenAI o1模型引发轰动:陶哲轩亲测强化学习成果,门萨智商测试得分高达100,实力问鼎榜首

OpenAIo1 模型在门萨智商测试中获得第一名

近日,OpenAI 的最新模型 o1 在门萨智商测试中取得了优异的成绩,排名第一。著名数学家陶哲轩对其进行了实测,发现 o1 能够成功识别克莱姆定理。此外,OpenAI 的研究副总裁 Mark Chen 表示,大型神经网络可能已经具备足够的算力,在测试中表现出一定的意识。

测试结果对比

Maxim Lott 对多个 AI 模型进行了门萨智商测试,结果显示,o1 以绝对优势位居榜首,其次是 Claude-3Opus 和 Bing Copilot。这套测试题并未出现在任何 AI 训练数据中,因此测试结果具有很高的参考价值。

陶哲轩的实测结果

著名数学家陶哲轩对 o1 进行了一系列实测,发现其在数学问题上的表现非常出色。例如,在面对一个措辞模糊的数学问题时,o1 成功识别出了克莱姆定理,并给出了令人满意的解答。相比之下,之前的 GPT 系列模型虽然能够提到一些相关概念,但细节往往是编造的无意义。

计算机教授 Tom Yeh 的动画解析

科罗拉多大学博尔德分校的计算机教授 Tom Yeh 制作了一个动画,详细解析了 OpenAI 如何训练 o1 模型进行长时间思考。动画展示了通过强化学习(RL)和思维链(CoT)的方法,使 o1 在推理阶段能够生成更复杂的思维链,从而提高了模型的表现。

团队分享的“啊哈”时刻

在发布 o1 模型后,OpenAI 团队分享了他们在研发过程中的“啊哈”时刻。这些关键时刻通常是在模型取得重大突破时发生的,比如首次生成连贯的 CoT 时,所有人惊喜交加,感受到模型的巨大进步。

团队 AMA 活动

为了回应用户的疑问,OpenAI o1 团队在 X 上组织了一场 AMA(Ask Me Anything)活动。用户们提出了许多关键问题,如如何控制模型思考的时间、模型的推理机制等。团队成员对这些问题进行了详细的回答,并表示会继续改进模型的功能。

o1 模型的未来发展

OpenAI 团队表示,未来版本的 o1 将支持更大的输入上下文、更长的任务处理能力以及多模态能力。此外,还会引入更多的工具支持和结构化输出功能,以便用户更好地控制模型的行为。

用户反馈和最佳实践

用户们发现 o1 在处理复杂任务和从有限指令中泛化的能力非常强大。研究人员还发现 o1 在哲学推理和泛化能力方面表现出色,如破译密码等任务。未来,OpenAI 将继续优化模型,提高其在各种任务中的表现。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...