标签：基准测试

通义千问 Qwen 2.5-Max：超大规模 MoE 模型发布，AI 对话模型基准测试显示优于 Deepseek V3 等竞品，目前暂未开源

阿里云发布通义千问 Qwen 2.5-Max：超大规模 MoE 模型助力新年创新新年伊始，阿里云正式推出了其最新一代的超大规模 MoE 模型——通义千问 Qwen 2.5-Max。这一模型不仅支持通过 API 接口访问，还提供了 Qwen Chat 平台供用户直接体验。用户可以通过与模型对话、使用 artifacts 功能或进行搜索等方式，充分感受 Qwen 2.5-Max 的强大功能。强大的预训练数据和优化方案 Qwen 2.5-Max 基于超过 20 万亿 token 的预训练数据，并采用了精心设计的后训练方案。这使得它在多个基准测试中表现出色，尤其是在 Arena-Hard、LiveBenc...

来源：

IT之家【阅读原文】
Tags：AI 对话模型 Qwen 2.5-Max 基准测试超大规模 MoE 模型通义千问

2个月前

OpenAI智能体新线索曝光！网友热议：集成ChatGPT与Operator功能的AI Agent即将登场，基准测试结果令人期待

OpenAI智能体新线索曝光：网友热议“新ChatGPT时刻”即将到来 OpenAI的智能体技术正在迎来新的突破，这一消息引起了广泛关注。根据知名爆料人光头哥的透露，OpenAI在MAC版ChatGPT桌面应用中隐藏了启用/禁用智能体的选项。从曝光的截图来看，这款智能体代号为“Operator（操作员）”，目前正在内测阶段，预计不久将上线。 Operator具备接管用户PC的能力，可以直接替代人类执行一系列任务，如编码开发应用、订餐和制定旅行攻略等。与此同时，OpenAI智能体在多个基准测试中的表现也引起了热议。据数据显示，在多个评估智能体执行...

来源：

量子位【阅读原文】
Tags：AI Agent ChatGPT OpenAI Operator 基准测试

2个月前

【微软推出Windows Agent Arena基准测试框架，评估AI代理在主流Windows应用中的卓越性能与运行效率】

IT之家于9月15日报道，据科技媒体NeoWin的消息，微软官方正式推出了全新的“Windows Agent Arena”基准测试框架，旨在评估生成式AI代理在Windows个人电脑上的性能表现。据微软介绍，“Windows Agent Arena”基准测试框架主要关注AI代理在使用主流Windows应用程序时的能力与速度，涵盖的应用范围广泛，包括Microsoft Edge和Google Chrome浏览器、Visual Studio Code等开发工具，以及预装的Windows应用程序如记事本、时钟和画图等。此外，该框架还支持对VLC等流行媒体播放器进行测试。微软在其官方博文中提到，他们基于OSWorld...

来源：

IT之家【阅读原文】
Tags：AI代理 Microsoft Navi Windows Agent Arena 基准测试

7个月前