2024年AI高考评测:大模型展现实力,数学成提升重点
在近日的2024年高考后,上海人工智能实验室发布了AI全卷评测结果,使用OpenCompass体系评估了多个开源模型,其中包括GPT-4o。所有模型的评测都在高考前完成,保证了评测的公正性。教师人工评判成绩,确保接近实际阅卷标准。Qwen2-72B、GPT-4o和书生・浦语2.0文曲星成为评测中的领先者,得分超过70%。然而,大部分模型在数学上的表现仍有待提高。InternLM2-20B-WQX在数学单科中脱颖而出,超越其他所有模型。评测涉及的模型有Mixtral 8x22B、Yi-1.5-34B、GLM-4-9B、InternLM2-20B-WQX、Qwen2-57B和Qwen2-72B。语文模型在现代文阅读上表现出色,但文言文理解差异明显,数学模型解答主观题时逻辑不清,公式应用僵化。英语方面,模型总体表现良好,但部分题型如完形填空存在不足,且作文易超字数。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...