标签:评测成绩
豆包大模型披露评测成绩,较上一代“云雀”提升19%
豆包大模型,一款新兴的人工智能语言处理工具,最近在火山引擎原动力大会上崭露头角,以其亲民的价格和出色的表现吸引了业界的目光。豆包模型在内部测试中展现出显著的提升,与前代产品“云雀”Skylark2 相比,其在11项主要评测集上的总分提高了19%,在代码能力和专业知识方面尤为突出。豆包在HumanEval和MBPP评测集上的提升达到了50%,在专业知识和指令遵循上分别提高了33%和24%。尽管GPT-4仍然领先,但豆包的综合评分76.8分显示出强劲的竞争实力。目前,豆包模型仅推出不久,尚无第三方评测,但预计未来会有更多测试结果公布...