突破数据耗尽困境:大型语言模型与人工智能的2028年算力挑战 – Epoch AI预示文本数据合成新时代

人工智能领域,训练数据的重要性不言而喻,尤其是对于大型语言模型(LLM)。然而,Epoch AI的最新论文揭示了一个令人惊讶的预测:互联网上的人类文本数据可能在2028年耗尽。这篇论文指出,尽管算力不断提升,数据已经成为AI发展的关键制约因素。OpenAI在训练GPT-5时已遇到数据短缺问题,考虑使用YouTube视频转录文本作为补充。Epoch AI预测,未来十年内,数据增长速度无法满足大型模型的需求,2028年可能面临“数据耗尽”的局面。

Epoch AI是一家专注于人工智能趋势研究的非营利机构,其工作受到政府报告和智库的重视。论文采用两种方法来预测数据耗尽:一是估算互联网文本数据存量和增量,二是考虑数据质量和可用性。通过对现有开源数据集的分析,他们估计互联网数据总量约为3100TB,但社交媒体上的数据因复杂性和隐私问题难以用于LLM训练。

尽管面临“数据墙”,论文提出两种可能的解决方案:一是利用AI生成数据,如OpenAI模型每天能生成大量文本,有望快速扩充数据;二是探索多模态和迁移学习,利用非文本数据,如视频、图像、金融市场数据或科学数据库。此外,还有一些实验室和初创公司正在研究新的训练方法,如“课程学习”。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...