标签：METR

智能体摩尔定律：AI能力每7个月翻倍，任务完成时间跨度显著缩短，METR指标下的Agent发展新纪元

（由多段落组成）近年来，AI技术的飞速发展引发了广泛关注。近期，Nature发表了一篇关于“智能体摩尔定律”的文章，揭示了AI在完成长期任务方面的惊人进步速度。根据非营利研究机构METR的研究发现，AI的能力大约每七个月翻一番。这意味着，在未来五年内，AI有望自动完成许多目前需要人类一个月才能完成的任务。为了更好地衡量AI完成任务的能力变化，研究人员提出了“50%-任务完成时间跨度”这一指标。该指标以50%任务成功率为基准，用于评估AI模型在不同时间段内的表现。例如，假设2019年AI完成某项任务所需的时间相当于人类...

来源：

量子位【阅读原文】
Tags：AI能力 METR 任务完成时间跨度摩尔定律智能体

1周前

120分钟内AI科研挑战：RE-Bench与METR助力o1-preview及Claude 3.5 Sonnet超越人类表现

限时120分钟科研挑战，AI表现超越人类在科研领域，人工智能（AI）的表现逐渐成为关注焦点。近期，一项名为“RE-Bench”的新评估基准由非营利研究机构METR推出，旨在评估当前AI智能体在自动化科研方面的能力是否接近人类专家水平。这项研究不仅揭示了AI与人类在短时间内科研能力的对比，还引发了对未来科研模式的广泛讨论。短时间内AI超越人类研究显示，在最初的2小时内，基于Claude 3.5 Sonnet和o1-preview构建的AI智能体在多项科研任务上的表现远超人类专家。这些任务包括高效编程、机器学习理论与实践、数据处理与分...

来源：

量子位【阅读原文】
Tags：AI科研 Claude 3.5 Sonnet METR o1-preview RE-Bench

4个月前