上海人工智能实验室揭示AI高考首秀：最高303分，数学模型评测遇挑战，语文理解与英语表现待提升

2024年AI高考评测：大模型展现实力，数学成提升重点

在近日的2024年高考后，上海人工智能实验室发布了AI全卷评测结果，使用OpenCompass体系评估了多个开源模型，其中包括GPT-4o。所有模型的评测都在高考前完成，保证了评测的公正性。教师人工评判成绩，确保接近实际阅卷标准。Qwen2-72B、GPT-4o和书生・浦语2.0文曲星成为评测中的领先者，得分超过70%。然而，大部分模型在数学上的表现仍有待提高。InternLM2-20B-WQX在数学单科中脱颖而出，超越其他所有模型。评测涉及的模型有Mixtral 8x22B、Yi-1.5-34B、GLM-4-9B、InternLM2-20B-WQX、Qwen2-57B和Qwen2-72B。语文模型在现代文阅读上表现出色，但文言文理解差异明显，数学模型解答主观题时逻辑不清，公式应用僵化。英语方面，模型总体表现良好，但部分题型如完形填空存在不足，且作文易超字数。

本文来源：

IT之家【阅读原文】

# 每日AI快讯 # AI高考 # 数学能力 # 模型评测 # 英语表现 # 语文理解

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

上海人工智能实验室揭示AI高考首秀：最高303分，数学模型评测遇挑战，语文理解与英语表现待提升

Apple Intelligence创新体验：iPhone用户将迎来邮件与信息聊天优化，Siri升级重塑照片编辑交互

AI技术震撼欧洲杯：支付宝引领生活服务新风尚，人机交互开启智能观赛体验

相关文章

暂无评论

AI最新资讯