智能体开源复现热潮来袭，Manus引领风潮，DeepSeek整合项目GAIA基准测试表现优异，挤满开源榜单引发广泛关注

智能体复现潮由Manus引爆，DeepSeek已被整合，开源项目大放异彩

近年来，智能体领域的开源复现潮如火如荼，商业闭源产品也纷纷加入竞争。这一趋势的引爆点是Manus背后的公司“蝴蝶效应”，它不仅点燃了整个智能体赛道的热情，还带来了众多创新项目。

在Manus发布的当天，两个重要的开源项目迅速发布了复现代码。除了OpenManus之外，另一个备受瞩目的开源项目OWL已经将DeepSeek模型成功整合到多智能体协作框架中。OWL来自国内开源社区CAMEL-AI团队，在智能体测试基准GAIA的验证集上取得了平均分第3的好成绩，在开源项目中排名第一。

尽管在Level 2和Level 3分数上仍有提升空间，但CAMEL-AI团队表示有信心进一步优化性能。目前，GitHub热榜上大多是与Agent相关的项目和工具库，MetaGPT、AutoGPT等老牌项目也再次受到关注。此外，金融、编程等垂直领域的智能体应用也备受瞩目。

Manus海外影响力逐渐扩大

Manus不仅在国内掀起热潮，其影响力也扩展到了国际舞台。官方社交媒体账号曾短暂被禁封，现已恢复，并承诺发布更多演示和更新。为了吸引海外用户，Manus联合创始人季逸超与抱抱脸CEO取得联系，公开分享100个邀请码，吸引了大量海外用户的关注。

许多海外用户试用后对Manus的表现赞不绝口，甚至有人将其用于个人主页的编写和部署。日本网友更是利用Manus部署了一个介绍自己的网站，并对其灵活性和执行力表示赞赏。尽管一些用户抱怨速度较慢，但整体反馈依然非常积极。

GAIA成为智能体评测新标杆

随着Manus的崛起，GAIA基准测试正成为智能体类产品必争之地。GAIA由Meta AI、HuggingFace和AutoGPT团队共同推出，旨在解决现有大语言模型基准测试难以评估新模型的问题。该测试由450多个具有明确答案的复杂问题组成，分为三个难度级别：

– Level 1：解题步骤不超过5步，通常不需要工具或仅使用一种工具。
– Level 2：需要在5-10步之间完成，并组合使用不同工具。
– Level 3：面向近乎完美的通用AI助手，要求执行任意长度的复杂动作序列，具备广泛的世界知识和信息获取能力。

人类在Level 2和Level 3上的成功率分别为92%和87.3%，而最先进的语言模型GPT-4在测试推出时得分仅为9.7%和0。目前，测试集排行榜中，h2oGPTe Agent和Trase Agent两个商业闭源系统的Level 2分数接近Manus公布的70.1%，而Manus在Level 3上的表现尤为突出，得分为57.7%。

未来，智能体刷GAIA似乎正在成为行业最新共识，或许不久以后，我们还能期待AgentArena智能体竞技场的诞生。

本文来源：