标签：评测成绩

豆包大模型披露评测成绩，较上一代“云雀”提升19%

豆包大模型，一款新兴的人工智能语言处理工具，最近在火山引擎原动力大会上崭露头角，以其亲民的价格和出色的表现吸引了业界的目光。豆包模型在内部测试中展现出显著的提升，与前代产品“云雀”Skylark2 相比，其在11项主要评测集上的总分提高了19%，在代码能力和专业知识方面尤为突出。豆包在HumanEval和MBPP评测集上的提升达到了50%，在专业知识和指令遵循上分别提高了33%和24%。尽管GPT-4仍然领先，但豆包的综合评分76.8分显示出强劲的竞争实力。目前，豆包模型仅推出不久，尚无第三方评测，但预计未来会有更多测试结果公布...

来源：

量子位【阅读原文】
Tags：AI对话助手云雀Skylark2 评测成绩语言模型豆包模型

10个月前