标签：过度训练

AI研究前沿：大模型如ChatGPT的过度训练现象，公开文本数据将在2026年前耗尽？

Epochai，一个专注于AI研究的机构，发布了一份研究报告，揭示了大模型训练数据的惊人消耗速度。当前，公开的高质量文本训练数据约为300万亿tokens，但随着ChatGPT等大模型的参数增多和过度训练，数据需求呈指数增长，预计2026年至2032年间将耗尽所有数据。过度训练是加速数据消耗的主要因素，以Meta的Llama3 8B版本为例，其过度训练程度高达100倍，远超其他模型。尽管过度训练能节省推理成本，但也可能导致模型学习过多噪音。此外，大模型的参数与训练数据比例超过最佳比例，可能增加数据需求，但降低推理阶段的计算成本。 ...

来源：

AIGC开放社区公众号【阅读原文】
Tags：AI研究合成数据大模型训练数据过度训练

10个月前