【微软推出Windows Agent Arena基准测试框架,评估AI代理在主流Windows应用中的卓越性能与运行效率】

IT之家于9月15日报道,据科技媒体NeoWin的消息,微软官方正式推出了全新的“Windows Agent Arena基准测试框架,旨在评估生成式AI代理在Windows个人电脑上的性能表现。

据微软介绍,“Windows Agent Arena”基准测试框架主要关注AI代理在使用主流Windows应用程序时的能力与速度,涵盖的应用范围广泛,包括Microsoft Edge和Google Chrome浏览器、Visual Studio Code等开发工具,以及预装的Windows应用程序如记事本、时钟和画图等。此外,该框架还支持对VLC等流行媒体播放器进行测试。

微软在其官方博文中提到,他们基于OSWorld框架构建了超过150项多样化的Windows任务,涉及多个领域,要求AI代理具备规划能力、屏幕理解和工具使用技能。此外,该基准测试具有高度可扩展性,可在Azure云平台上无缝并行运行,最快仅需20分钟即可完成全面评估。

值得一提的是,微软研究院还开发了一款名为Navi的多模态AI代理,并在“Windows Agent Arena”基准测试中对其进行了测试。Navi被要求根据特定文本提示执行任务,例如将当前浏览的网页转换为PDF文件并保存到桌面上。测试结果显示,Navi的平均任务成功率仅为19.5%,远低于人类表现的74.5%。

IT之家提供了更多详细信息及参考链接供读者深入了解。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...