在最新的《中文大模型基准测评 2024 年度 4 月报告》中,SuperCLUE 评测机构对国内外32个知名大模型进行了全面评估。这份报告揭示了百川智能的 Baichuan 3 在国内大模型中占据领先地位,紧随其后的是智谱 GLM-4、通义千问 2.1、文心一言 4.0和 Moonshot (Kimi)。尽管如此,国际上的GPT-4和Claude3在测评中表现出更高的得分。
SuperCLUE 不仅局限于传统的选择题形式,还引入了开放性问题的测评,以模拟实际应用中的大模型场景。通过多轮对话的设定,深入评估模型的上下文理解、记忆和对话能力。本次测评涵盖了逻辑推理、代码编写、语言理解等多个领域,总计2194道题目。
Baichuan 3 在测评中展现出卓越的综合能力,其在知识百科方面以82分的成绩超过GPT-4-Turbo,成为所有评测模型中的首位。在逻辑推理方面,Baichuan 3 以68.60的分数超过了Claude3-Opus,领先于其他国内竞争对手。此外,Baichuan 3 在计算、代码和工具使用方面也取得了国内前三的好成绩。
请注意,本文提及的外部链接仅供参考,不代表IT之家立场。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...