人工智能与机器学习新突破:PaperBench基准评测引领ICML 2024未来方向,Claude 3.5 Sonnet助力OpenAI创新

随着人工智能技术的快速发展,评估AI智能体的能力变得尤为重要。在4月2日,美国开放人工智能研究中心(OpenAI)正式推出了一个名为PaperBench的新基准工具。这一工具旨在测试AI智能体复现前沿AI研究成果的能力。

PaperBench的核心任务是要求智能体从零开始复现20篇来自ICML 2024 Spotlight和Oral的精选论文。这些任务不仅涉及对论文贡献的理解,还需要开发相应的代码库,并成功执行实验。通过这一过程,可以全面评估AI智能体在理解和实现复杂研究任务方面的能力。

经过一系列测试,研究人员发现多个前沿模型在PaperBench上的表现各有差异。其中,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架后,平均复现得分为21.0%。尽管这一成绩令人瞩目,但进一步的研究显示,目前的AI模型尚未能够超越顶尖人类专家的表现。为了验证这一点,OpenAI招募了多位机器学习领域的博士参与部分测试集的评估,结果表明,当前的AI模型仍有很大的提升空间。

本文来源: 界面新闻【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...