最近的研究揭示了一个令人惊讶的现象,即许多流行的大规模语言模型(LLMs)存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色,但新研究表明,当前的评估方法可能并未准确反映大模型的真实能力。问题在于,大部分研究依赖于如 GSM8k、MATH 等测试集,而这些数据集可能已被训练数据污染,导致模型在基准测试中的表现被夸大。
Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型,发现它们受到基准数据污染的影响。为避免数据污染,Scale AI 创建了新的 GSM1k 数据集,包含1250道小学数学题,以确保公正的基准测试。结果显示,某些模型在 GSM1k 上的表现显著下降,特别是 Mistral 和 Phi 系列,显示出明显的过拟合迹象。
进一步分析表明,模型生成 GSM8k 样本的概率与其在 GSM8k 和 GSM1k 之间的性能差异呈正相关,揭示了过拟合主要是因为模型“记住”了训练样本。然而,即便是过拟合的模型,仍能在新的数学问题上展现出一定的泛化能力。Scale AI 不会立即公开 GSM1k 数据集,以防止类似数据污染,但计划开源评估代码,并在特定条件下发布 GSM1k。
本文来源: 机器之心【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...