标签:o1-mini

OpenAI强化微调技术革新:o1-mini在生物医学领域评分模型中表现突出,数据量虽少却反超o1达80%,成为年度最大惊喜

OpenAI推出强化微调功能:少量数据实现显著提升 在2024年的“双12”直播活动中,OpenAI继续展示了其在人工智能领域的创新实力。继前一天发布正式版o1之后,OpenAI在第二天的直播中推出了全新的强化微调(Reinforcement Fine-Tuning)功能。这一功能的核心在于,仅需少量的训练数据即可在特定领域内创建出高效的专家模型。 OpenAI的CEO奥特曼在直播中表示:“强化微调的效果非常出色,这是我今年最大的惊喜之一,我非常期待看到人们如何利用这项技术构建新的应用。”据他介绍,只需几十个示例数据,模型就能实现显著的性能提升...

【北大AI奥数评测新突破:o1-mini表现优异,超越o1-preview,助力Omni-MATH大型语言模型】

北大AI奥数评测:o1-mini比o1-preview分数更高 明敏 2024-09-23 08:51:52 来源:量子位 自从OpenAI发布了o1系列模型后,传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示,o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中,o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考:大模型是否能在更高难度的数学竞赛中表现出色? 为了解答这个问题,北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在...

OpenAI 再次领跑:o1-preview 和 o1-mini 在聊天机器人竞技场中展现强大实力,人工智能模型轻松应对数学与编程挑战

IT之家 9 月 20 日报道,据科技媒体 The Decoder 最新消息,在聊天机器人竞技场(Chatbot Arena)的最新评测中,OpenAI 推出的新一代人工智能模型 o1-preview 和 o1-mini 荣登榜首。 聊天机器人竞技场简介 聊天机器人竞技场是一个专门用于评估和比较各种人工智能模型性能的平台。该平台通过收集来自 6000 多位社区用户的评分数据,对新发布的 OpenAI 系统进行了全面测试。此次评测结果表明,o1-preview 和 o1-mini 在多项任务中表现突出,特别是在数学运算、复杂指令处理以及编程能力方面。 数学模型优势 评测结果显示...