IT之家 9 月 20 日报道,据科技媒体 The Decoder 最新消息,在聊天机器人竞技场(Chatbot Arena)的最新评测中,OpenAI 推出的新一代人工智能模型 o1-preview 和 o1-mini 荣登榜首。
聊天机器人竞技场简介
聊天机器人竞技场是一个专门用于评估和比较各种人工智能模型性能的平台。该平台通过收集来自 6000 多位社区用户的评分数据,对新发布的 OpenAI 系统进行了全面测试。此次评测结果表明,o1-preview 和 o1-mini 在多项任务中表现突出,特别是在数学运算、复杂指令处理以及编程能力方面。
数学模型优势
评测结果显示,o1-preview 和 o1-mini 在数学任务上的得分超过了 1360 分,远超其他模型的表现。这表明这两款模型在处理复杂计算和逻辑推理方面具有显著优势。IT之家附上了相关截图以供参考。
O1 的目标
O1 系列模型的目标是为人工智能推理设定一个新的通用标准,即在回答问题之前进行更长时间的“思考”,从而提高答案的准确性和可靠性。尽管如此,O1 并非在所有方面都超越了 GPT-4o。对于一些不需要复杂逻辑推理的任务,GPT-4o 依然表现出较快的响应速度。
注意事项
需要注意的是,o1-preview 和 o1-mini 的投票数量远低于 GPT-4o 或 Anthropic’s Claude 3.5 等成熟模型,每款模型的评论数量不足 3000 条。因此,这样的样本量可能不足以完全反映实际情况,限制了评测结果的实际意义。
广告声明
本文中包含的外部链接(包括但不限于超链接、二维码、口令等)仅供传递更多信息,帮助读者快速获取相关。所有评测结果仅供参考。IT之家的所有文章均包含此声明。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...