AI研究前沿:大模型如ChatGPT的过度训练现象,公开文本数据将在2026年前耗尽?

Epochai,一个专注于AI研究的机构,发布了一份研究报告,揭示了大模型训练数据的惊人消耗速度。当前,公开的高质量文本训练数据约为300万亿tokens,但随着ChatGPT等大模型的参数增多和过度训练,数据需求呈指数增长,预计2026年至2032年间将耗尽所有数据。过度训练是加速数据消耗的主要因素,以Meta的Llama3 8B版本为例,其过度训练程度高达100倍,远超其他模型。尽管过度训练能节省推理成本,但也可能导致模型学习过多噪音。此外,大模型的参数与训练数据比例超过最佳比例,可能增加数据需求,但降低推理阶段的计算成本。

当公开数据耗尽时,有四种获取新训练数据的方法:1) 合成数据,利用深度学习模拟真实数据,但质量可能较差;2) 多模态和跨领域数据学习,结合不同类型的多模态信息,如GPT-4o等模型;3) 私有数据,尽管存在隐私和安全挑战,但潜力巨大;4) 实时交互学习,让模型直接与真实世界互动,提高自主性和适应性,但对模型要求更高。

本文来源: ​ AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...