标签:模型评测
上海人工智能实验室揭示AI高考首秀:最高303分,数学模型评测遇挑战,语文理解与英语表现待提升
2024年AI高考评测:大模型展现实力,数学成提升重点 在近日的2024年高考后,上海人工智能实验室发布了AI全卷评测结果,使用OpenCompass体系评估了多个开源模型,其中包括GPT-4o。所有模型的评测都在高考前完成,保证了评测的公正性。教师人工评判成绩,确保接近实际阅卷标准。Qwen2-72B、GPT-4o和书生・浦语2.0文曲星成为评测中的领先者,得分超过70%。然而,大部分模型在数学上的表现仍有待提高。InternLM2-20B-WQX在数学单科中脱颖而出,超越其他所有模型。评测涉及的模型有Mixtral 8x22B、Yi-1.5-34B、GLM-4-9B、Intern...