标签：AI科研

120分钟内AI科研挑战：RE-Bench与METR助力o1-preview及Claude 3.5 Sonnet超越人类表现

限时120分钟科研挑战，AI表现超越人类在科研领域，人工智能（AI）的表现逐渐成为关注焦点。近期，一项名为“RE-Bench”的新评估基准由非营利研究机构METR推出，旨在评估当前AI智能体在自动化科研方面的能力是否接近人类专家水平。这项研究不仅揭示了AI与人类在短时间内科研能力的对比，还引发了对未来科研模式的广泛讨论。短时间内AI超越人类研究显示，在最初的2小时内，基于Claude 3.5 Sonnet和o1-preview构建的AI智能体在多项科研任务上的表现远超人类专家。这些任务包括高效编程、机器学习理论与实践、数据处理与分...

来源：

4个月前