标签:METR
智能体摩尔定律:AI能力每7个月翻倍,任务完成时间跨度显著缩短,METR指标下的Agent发展新纪元
(由多段落组成) 近年来,AI技术的飞速发展引发了广泛关注。近期,Nature发表了一篇关于“智能体摩尔定律”的文章,揭示了AI在完成长期任务方面的惊人进步速度。根据非营利研究机构METR的研究发现,AI的能力大约每七个月翻一番。这意味着,在未来五年内,AI有望自动完成许多目前需要人类一个月才能完成的任务。 为了更好地衡量AI完成任务的能力变化,研究人员提出了“50%-任务完成时间跨度”这一指标。该指标以50%任务成功率为基准,用于评估AI模型在不同时间段内的表现。例如,假设2019年AI完成某项任务所需的时间相当于人类...
120分钟内AI科研挑战:RE-Bench与METR助力o1-preview及Claude 3.5 Sonnet超越人类表现
限时120分钟科研挑战,AI表现超越人类 在科研领域,人工智能(AI)的表现逐渐成为关注焦点。近期,一项名为“RE-Bench”的新评估基准由非营利研究机构METR推出,旨在评估当前AI智能体在自动化科研方面的能力是否接近人类专家水平。这项研究不仅揭示了AI与人类在短时间内科研能力的对比,还引发了对未来科研模式的广泛讨论。 短时间内AI超越人类 研究显示,在最初的2小时内,基于Claude 3.5 Sonnet和o1-preview构建的AI智能体在多项科研任务上的表现远超人类专家。这些任务包括高效编程、机器学习理论与实践、数据处理与分...