标签：SuperCLUE

GPT-4 Turbo首次被击败！国产大模型拿下总分第一

商汤科技的最新大模型日日新5.0（SenseChat V5）在SuperCLUE中文大模型测评基准中取得了历史性的突破，以80.03分的总分超过GPT-4 Turbo的79.13分，成为新的榜首。这款国产模型在综合、文科领域刷新了国内最佳成绩，理科方面也保持国内领先。SenseChat V5在文科测试中得分82.20分，超过了GPT-4 Turbo，而理科测试虽未超越GPT-4 Turbo，但仍在国内大模型中排名第一。此外，模型在国内外平均水平对比中表现出色，尤其在文科能力上优于国外选手。商汤科技采用MoE架构，大规模训练数据，以及创新的训练策略，提升了模型的推理和表...

来源：

量子位【阅读原文】
Tags：GPT-4 Turbo SuperCLUE 商汤科技大模型测评日日新5.0

10个月前

最新中文大模型测评：百川智能 Baichuan 3 国内第一

在最新的《中文大模型基准测评 2024 年度 4 月报告》中，SuperCLUE 评测机构对国内外32个知名大模型进行了全面评估。这份报告揭示了百川智能的 Baichuan 3 在国内大模型中占据领先地位，紧随其后的是智谱 GLM-4、通义千问 2.1、文心一言 4.0和 Moonshot (Kimi)。尽管如此，国际上的GPT-4和Claude3在测评中表现出更高的得分。 SuperCLUE 不仅局限于传统的选择题形式，还引入了开放性问题的测评，以模拟实际应用中的大模型场景。通过多轮对话的设定，深入评估模型的上下文理解、记忆和对话能力。本次测评涵盖了逻辑推理、代码...

来源：

IT之家【阅读原文】
Tags：Baichuan 3 GPT-4 SuperCLUE 大模型评测逻辑推理

11个月前