OpenAI开源PaperBench,助力ICML 2024智能量化评估与自动评分系统发展

今天凌晨1点,OpenAI发布了一款全新的AI智能体评估基准——PaperBench。这一基准主要测试智能体在搜索、整合和执行方面的能力,并且需要复现2024年国际机器学习大会(ICML)上的顶级论文,包括对论文的深度理解、代码编写以及实验操作等多方面的技能。

根据OpenAI提供的数据,当前主流的大模型所生成的智能体,仍然无法超越顶尖的机器学习专业博士生的表现。然而,在辅助学习和科研理解方面,这些智能体具有显著的价值。

开源地址:[https://github.com/openai/preparedness/PaperBench](https://github.com/openai/preparedness/PaperBench)

PaperBench核心介绍
PaperBench的核心在于其任务模块,具体定义了智能体需要完成的任务。它要求从零开始复现20篇来自ICML 2024会议上的Spotlight和Oral类别的顶级论文。这些任务不仅涉及对论文贡献的理解,还包括开发相应的代码库并成功运行实验,以全面评估智能体从理论到实践的自动化能力。

为了确保评估的精确性和细致性,PaperBench设计了一套详细的评分标准,采用层次化的树形结构呈现。这套评分系统能够深入到每一个细节,从论文的核心贡献到具体的实验结果,再到代码实现和执行要求,每个环节都有对应的评分节点,总计8316个评分任务,从而实现了对智能体能力的全面评估。

评分模块的核心是基于大模型的自动评分系统,该系统能够依据评分标准自动评估智能体的复现尝试。这种自动评分系统的引入极大地提高了评分效率和可扩展性,使PaperBench可以快速处理大量提交。为了验证自动评分系统的准确性,PaperBench还创建了一个独立的评分基准测试JudgeEval,通过对比自动评分与人类专家的评分结果来评估性能。这一过程不仅保证了自动评分系统的可靠性,也为未来评分系统的改进提供了重要参考。

规则模块则确保了评估过程的公平性。它明确规定了智能体在执行任务时可以使用的资源范围,例如允许智能体浏览互联网,但禁止使用论文作者的原始代码或其他在线复制资源。这些规则确保智能体的能力完全依赖于自身的理解和实现,而不是现有代码或资源的支持。

此外,PaperBench还包含一个轻量级变体模块——PaperBench Code-Dev,旨在降低评估门槛,使其更适用于广泛的社区。Code-Dev放宽了一些评测要求,例如跳过了执行代码以验证结果是否成功的步骤,仅对代码开发进行评估。尽管这一变体牺牲了一些评估完整性,但它大幅降低了评估成本和复杂性,使更多研究者能够参与到智能体的评估中。

智能体测试环境
每个被测试的智能体都在运行Ubuntu 24.04的Docker容器中执行任务,确保了环境的一致性和可重复性,同时接近真实研究场景的运行环境。容器可访问单个A10 GPU,这对于加速机器学习实验至关重要。同时,容器具备联网能力,智能体可以下载软件包、访问在线资源。

为满足实验中的多种服务需求,研究人员为智能体提供了HuggingFace和OpenAI API的密钥,其中OpenAI API预加载了1000美元额度。这确保了智能体在需要使用OpenAI的微调API或从HuggingFace下载数据集时,能够顺利操作。

智能体的本地工作目录包含论文的PDF和Markdown格式文件、论文附录以及指令文本文件,为智能体提供了丰富的信息来源和明确的指导。在智能体设置方面,研究团队基于Inspect AI的基本智能体开发了SimpleAgent。SimpleAgent运行工具使用循环,配备bash shell命令执行工具、Python代码执行工具、web浏览器工具和分页文件阅读器工具,能够高效完成任务。然而,大多数使用SimpleAgent的智能体存在提前结束任务的问题。为解决这一问题,OpenAI开发了IterativeAgent,通过修改系统提示,要求智能体每次只进行下一步操作,并移除了提交工具,确保在整个可用时间内持续工作。这些改进使IterativeAgent在实验中表现出与SimpleAgent不同的行为模式,为研究不同智能体设置对模型复现能力的影响提供了新的视角。

测试数据
OpenAI通过这一基准对GPT-4o、o1、o3-mini、DeepSeek-R1、Claude3.5Sonnet和Gemini2.0Flash等主流开闭源模型打造的智能体进行了综合测试。每个模型对每篇论文运行3次,每次运行的最长时间为12小时。结果显示,Claude3.5Sonnet表现最佳,平均复现分数达到21.0%;o1得分较低,为13.2%;R1仅为6%;其他测试模型的表现更差。最令人意外的是,OpenAI刚发布的o3-Mini-High直接垫底,表明这一评测相当客观。

通过对智能体日志的手动检查发现,除Claude3.5Sonnet外,其他模型经常提前结束任务,并且所有模型都未能有效规划如何在有限时间内完成论文复现任务。o3-mini在工具使用方面也存在困难。这表明智能体在执行长期任务方面存在不足,尽管它们在制定和编写多步计划方面有一定能力,但在实际执行长计划时却表现不佳。

为了进一步验证智能体和PaperBench的评测准确性,OpenAI邀请了8名顶级名校的机器学习专业博士,在与智能体相似的条件下,对PaperBench中的4篇论文进行复现尝试,每人对每篇论文进行3次独立尝试。结果显示,在复现尝试的早期阶段,o1的表现优于人类基线,但在24小时后,人类开始超越o1。这表明模型在开始时能够快速编写大量代码,但在后续有效规划和改进提交方面存在不足,而人类在前期消化论文的时间较多,但后续能够持续提升复现效果。因此,目前智能体的能力仍无法超越人类。

本文来源: AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...