标签:过度训练

AI研究前沿:大模型如ChatGPT的过度训练现象,公开文本数据将在2026年前耗尽?

Epochai,一个专注于AI研究的机构,发布了一份研究报告,揭示了大模型训练数据的惊人消耗速度。当前,公开的高质量文本训练数据约为300万亿tokens,但随着ChatGPT等大模型的参数增多和过度训练,数据需求呈指数增长,预计2026年至2032年间将耗尽所有数据。过度训练是加速数据消耗的主要因素,以Meta的Llama3 8B版本为例,其过度训练程度高达100倍,远超其他模型。尽管过度训练能节省推理成本,但也可能导致模型学习过多噪音。此外,大模型的参数与训练数据比例超过最佳比例,可能增加数据需求,但降低推理阶段的计算成本。 ...