终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

每日AI快讯1年前 (2024)发布 AI部落小助手

最近的研究揭示了一个令人惊讶的现象，即许多流行的大规模语言模型（LLMs）存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色，但新研究表明，当前的评估方法可能并未准确反映大模型的真实能力。问题在于，大部分研究依赖于如 GSM8k、MATH 等测试集，而这些数据集可能已被训练数据污染，导致模型在基准测试中的表现被夸大。

Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型，发现它们受到基准数据污染的影响。为避免数据污染，Scale AI 创建了新的 GSM1k 数据集，包含1250道小学数学题，以确保公正的基准测试。结果显示，某些模型在 GSM1k 上的表现显著下降，特别是 Mistral 和 Phi 系列，显示出明显的过拟合迹象。

进一步分析表明，模型生成 GSM8k 样本的概率与其在 GSM8k 和 GSM1k 之间的性能差异呈正相关，揭示了过拟合主要是因为模型“记住”了训练样本。然而，即便是过拟合的模型，仍能在新的数学问题上展现出一定的泛化能力。Scale AI 不会立即公开 GSM1k 数据集，以防止类似数据污染，但计划开源评估代码，并在特定条件下发布 GSM1k。

本文来源：