标签:AI科研

120分钟内AI科研挑战:RE-Bench与METR助力o1-preview及Claude 3.5 Sonnet超越人类表现

限时120分钟科研挑战,AI表现超越人类 在科研领域,人工智能(AI)的表现逐渐成为关注焦点。近期,一项名为“RE-Bench”的新评估基准由非营利研究机构METR推出,旨在评估当前AI智能体在自动化科研方面的能力是否接近人类专家水平。这项研究不仅揭示了AI与人类在短时间内科研能力的对比,还引发了对未来科研模式的广泛讨论。 短时间内AI超越人类 研究显示,在最初的2小时内,基于Claude 3.5 Sonnet和o1-preview构建的AI智能体在多项科研任务上的表现远超人类专家。这些任务包括高效编程、机器学习理论与实践、数据处理与分...