标签：训练数据

AI研究前沿：大模型如ChatGPT的过度训练现象，公开文本数据将在2026年前耗尽？

Epochai，一个专注于AI研究的机构，发布了一份研究报告，揭示了大模型训练数据的惊人消耗速度。当前，公开的高质量文本训练数据约为300万亿tokens，但随着ChatGPT等大模型的参数增多和过度训练，数据需求呈指数增长，预计2026年至2032年间将耗尽所有数据。过度训练是加速数据消耗的主要因素，以Meta的Llama3 8B版本为例，其过度训练程度高达100倍，远超其他模型。尽管过度训练能节省推理成本，但也可能导致模型学习过多噪音。此外，大模型的参数与训练数据比例超过最佳比例，可能增加数据需求，但降低推理阶段的计算成本。 ...

来源：

AIGC开放社区公众号【阅读原文】
Tags：AI研究合成数据大模型训练数据过度训练

10个月前

“弱智吧登AI论文”上贴吧热搜网友：弱智吧不收真弱智

在近期的科技新闻中，百度贴吧中的“弱智吧”以其独特的语言风格意外地成为了人工智能研究的热门话题。一篇正规的AI论文中提及了弱智吧，将其视为优秀的中文训练数据来源，这使得该话题在贴吧内迅速升温，甚至专门开设了讨论帖。吧友们对此表达了各种观点，有人幽默地指出，这可能解释了为何弱智吧不接纳真正的弱智者。这一事件引发了关于AI与人类智能界限的深入讨论，比如如果AI变得比弱智更“弱智”，这究竟代表了人类的退步还是AI的进步？据报道，使用弱智吧数据训练出的大模型在性能上超越了多个知名平台，如百科、知乎、...

来源：

快科技【阅读原文】
Tags：人工智能大模型弱智吧训练数据语录

12个月前

OpenAI再陷巨大争议？Sora训练数据被质疑非法，CTO采访疯狂翻车

OpenAI的首席技术官（CTO）Murati近期在接受华尔街日报（WSJ）采访时，对新AI模型Sora的训练数据来源含糊其辞，引发了网络上的广泛讨论和版权争议。当被问及Sora的具体训练数据时，Murati的回答显得不确定，她表示使用了公开数据和已获许可的数据，但在面对具体如YouTube、Facebook、Instagram等平台的视频是否被用于训练时，她无法给出明确答案。科技评论家和网友质疑Murati可能在说谎，认为这暴露出OpenAI在数据使用上的潜在法律问题。OpenAI目前正面临多起诉讼，指控其在未获许可的情况下使用受版权保护的内容训练ChatGPT...

来源：

新智元公众号【阅读原文】
Tags：AI模型 OpenAI Sora 版权争议训练数据

1年前 (2024)

OpenAI CTO：普通人数月后就能用Sora了

OpenAI的最新工具Sora正逐渐揭开神秘面纱，预计今年晚些时候将向公众开放。OpenAI首席技术官米拉·穆拉蒂在《华盛顿邮报》的采访中透露，Sora是一款文字到视频的工具，具有创新性但仍有瑕疵。穆拉蒂讨论了Sora的独特之处，如基于扩散模型的学习机制，以及如何改进和可能包含音频的功能。尽管Sora的视频质量令人印象深刻，但仍存在一些错误，如物体颜色变化和不符合指令的生成结果。OpenAI正在努力使Sora成为用户创作和编辑内容的工具，并考虑添加元数据以标识视频来源，以应对真实与AI内容混淆的挑战。穆拉蒂强调了安全问题的...

来源：

iFeng科技【阅读原文】
Tags：OpenAI Sora 安全问题文字到视频训练数据