标题:智能体开源复现热潮来袭,Manus引领风潮,DeepSeek整合项目GAIA基准测试表现优异,挤满开源榜单引发广泛关注

智能体复现潮由Manus引爆,DeepSeek已被整合,开源项目大放异彩

近年来,智能体领域的开源复现潮如火如荼,商业闭源产品也纷纷加入竞争。这一趋势的引爆点是Manus背后的公司“蝴蝶效应”,它不仅点燃了整个智能体赛道的热情,还带来了众多创新项目。

在Manus发布的当天,两个重要的开源项目迅速发布了复现代码。除了OpenManus之外,另一个备受瞩目的开源项目OWL已经将DeepSeek模型成功整合到多智能体协作框架中。OWL来自国内开源社区CAMEL-AI团队,在智能体测试基准GAIA的验证集上取得了平均分第3的好成绩,在开源项目中排名第一。

尽管在Level 2和Level 3分数上仍有提升空间,但CAMEL-AI团队表示有信心进一步优化性能。目前,GitHub热榜上大多是与Agent相关的项目和工具库,MetaGPT、AutoGPT等老牌项目也再次受到关注。此外,金融、编程等垂直领域的智能体应用也备受瞩目。

Manus海外影响力逐渐扩大

Manus不仅在国内掀起热潮,其影响力也扩展到了国际舞台。官方社交媒体账号曾短暂被禁封,现已恢复,并承诺发布更多演示和更新。为了吸引海外用户,Manus联合创始人季逸超与抱抱脸CEO取得联系,公开分享100个邀请码,吸引了大量海外用户的关注。

许多海外用户试用后对Manus的表现赞不绝口,甚至有人将其用于个人主页的编写和部署。日本网友更是利用Manus部署了一个介绍自己的网站,并对其灵活性和执行力表示赞赏。尽管一些用户抱怨速度较慢,但整体反馈依然非常积极。

GAIA成为智能体评测新标杆

随着Manus的崛起,GAIA基准测试正成为智能体类产品必争之地。GAIA由Meta AI、HuggingFace和AutoGPT团队共同推出,旨在解决现有大语言模型基准测试难以评估新模型的问题。该测试由450多个具有明确答案的复杂问题组成,分为三个难度级别:

– Level 1:解题步骤不超过5步,通常不需要工具或仅使用一种工具。
– Level 2:需要在5-10步之间完成,并组合使用不同工具。
– Level 3:面向近乎完美的通用AI助手,要求执行任意长度的复杂动作序列,具备广泛的世界知识和信息获取能力。

人类在Level 2和Level 3上的成功率分别为92%和87.3%,而最先进的语言模型GPT-4在测试推出时得分仅为9.7%和0。目前,测试集排行榜中,h2oGPTe Agent和Trase Agent两个商业闭源系统的Level 2分数接近Manus公布的70.1%,而Manus在Level 3上的表现尤为突出,得分为57.7%。

未来,智能体刷GAIA似乎正在成为行业最新共识,或许不久以后,我们还能期待AgentArena智能体竞技场的诞生。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...