刚刚,OpenAI推出全新o3-mini,免费使用且具备强大STEM推理能力,支持三大推理模式,全面提升你的ChatGPT体验

OpenAI发布新模型o3-mini,大幅提升推理性能与用户体验

今天凌晨3点,OpenAI正式推出了其最新小型推理模型o3-mini。该模型现已在ChatGPT和API中上线,并为不同用户群体提供了多样化的使用权限。Pro用户可以无限次使用o3-mini,而Plus和Team用户的速率限制则是o1-mini的三倍。对于免费版ChatGPT用户,虽然有次数限制,但也可以免费体验o3-mini。

值得一提的是,o3-mini具备网络搜索功能,能够展示完整的深度思考过程,极大提升了用户体验。尽管不支持视觉推理,o3-mini依然表现出色,成为首款满足多项开发者需求的小型推理模型。它支持函数调用、结构化输出和开发者消息,无需额外调整即可直接应用于实际环境中。

o3-mini还支持流式传输,用户可以根据具体应用场景选择低、中、高三种不同的推理强度。面对复杂问题时,可以选择高推理强度让模型深入思考;而在延迟敏感的问题上,则可以选择低推理强度以优先保证速度。

性能优化与对比测试

在性能方面,o3-mini针对STEM领域(科学、技术、工程和数学)进行了优化。特别是在数学、编码和科学领域,中等推理强度下的o3-mini表现与OpenAI o1相当,但响应速度更快。专家评估显示,o3-mini给出的答案比OpenAI o1-mini更准确、清晰,推理能力更强。

在各类测试中,o3-mini的表现令人瞩目。例如,在美国数学竞赛(AIME2024)中,低推理强度下o3-mini与o1-mini表现相近,中等推理强度下与o1相当,高推理强度下则超越了o1-mini和o1。在博士水平科学问题测试中,无论在哪种推理强度下,o3-mini的表现都非常出色。在研究级数学测试中,高推理强度下的o3-mini更是优于其前代模型。在竞赛编程中,随着推理强度的增加,o3-mini的Elo评分逐步提高,均超过o1-mini,中等推理强度时与o1表现相当。在软件工程测试中,o3-mini是表现最佳的模型。

此外,o3-mini的平均响应时间为7.7秒,比o1-mini的10.16秒快了24%。这使得o3-mini在处理复杂任务时更加高效。

用户反馈与期待

自OpenAI发布新模型以来,网友纷纷对其性能提出疑问,尤其是与DeepSeek的R1进行比较。许多用户对新增的网络搜索功能表示欢迎,并希望在ChatGPT中添加选项,允许选择DeepSeek R1作为模型,类似于Perplexity AI的功能。

尽管o3-mini不支持视觉推理,但它在其他方面的表现仍然得到了用户的广泛认可。尤其是在处理庞大代码库时,o3-mini能够展示其思考过程,这一特性受到了开发者的高度评价。一些用户指出,虽然Plus用户每周只有50条消息的限制,但他们对o3-mini的整体表现仍然非常满意。

本文来源: AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...