标签：模型评测

上海人工智能实验室揭示AI高考首秀：最高303分，数学模型评测遇挑战，语文理解与英语表现待提升

2024年AI高考评测：大模型展现实力，数学成提升重点在近日的2024年高考后，上海人工智能实验室发布了AI全卷评测结果，使用OpenCompass体系评估了多个开源模型，其中包括GPT-4o。所有模型的评测都在高考前完成，保证了评测的公正性。教师人工评判成绩，确保接近实际阅卷标准。Qwen2-72B、GPT-4o和书生・浦语2.0文曲星成为评测中的领先者，得分超过70%。然而，大部分模型在数学上的表现仍有待提高。InternLM2-20B-WQX在数学单科中脱颖而出，超越其他所有模型。评测涉及的模型有Mixtral 8x22B、Yi-1.5-34B、GLM-4-9B、Intern...

来源：

IT之家【阅读原文】
Tags：AI高考数学能力模型评测英语表现语文理解

9个月前