标签:训练数据

AI研究前沿:大模型如ChatGPT的过度训练现象,公开文本数据将在2026年前耗尽?

Epochai,一个专注于AI研究的机构,发布了一份研究报告,揭示了大模型训练数据的惊人消耗速度。当前,公开的高质量文本训练数据约为300万亿tokens,但随着ChatGPT等大模型的参数增多和过度训练,数据需求呈指数增长,预计2026年至2032年间将耗尽所有数据。过度训练是加速数据消耗的主要因素,以Meta的Llama3 8B版本为例,其过度训练程度高达100倍,远超其他模型。尽管过度训练能节省推理成本,但也可能导致模型学习过多噪音。此外,大模型的参数与训练数据比例超过最佳比例,可能增加数据需求,但降低推理阶段的计算成本。 ...

“弱智吧登AI论文”上贴吧热搜 网友:弱智吧不收真弱智

在近期的科技新闻中,百度贴吧中的“弱智吧”以其独特的语言风格意外地成为了人工智能研究的热门话题。一篇正规的AI论文中提及了弱智吧,将其视为优秀的中文训练数据来源,这使得该话题在贴吧内迅速升温,甚至专门开设了讨论帖。吧友们对此表达了各种观点,有人幽默地指出,这可能解释了为何弱智吧不接纳真正的弱智者。这一事件引发了关于AI与人类智能界限的深入讨论,比如如果AI变得比弱智更“弱智”,这究竟代表了人类的退步还是AI的进步? 据报道,使用弱智吧数据训练出的大模型在性能上超越了多个知名平台,如百科、知乎、...

OpenAI再陷巨大争议?Sora训练数据被质疑非法,CTO采访疯狂翻车

OpenAI的首席技术官(CTO)Murati近期在接受华尔街日报(WSJ)采访时,对新AI模型Sora的训练数据来源含糊其辞,引发了网络上的广泛讨论和版权争议。当被问及Sora的具体训练数据时,Murati的回答显得不确定,她表示使用了公开数据和已获许可的数据,但在面对具体如YouTube、Facebook、Instagram等平台的视频是否被用于训练时,她无法给出明确答案。科技评论家和网友质疑Murati可能在说谎,认为这暴露出OpenAI在数据使用上的潜在法律问题。OpenAI目前正面临多起诉讼,指控其在未获许可的情况下使用受版权保护的内容训练ChatGPT...

OpenAI CTO:普通人数月后就能用Sora了

OpenAI的最新工具Sora正逐渐揭开神秘面纱,预计今年晚些时候将向公众开放。OpenAI首席技术官米拉·穆拉蒂在《华盛顿邮报》的采访中透露,Sora是一款文字到视频的工具,具有创新性但仍有瑕疵。穆拉蒂讨论了Sora的独特之处,如基于扩散模型的学习机制,以及如何改进和可能包含音频的功能。尽管Sora的视频质量令人印象深刻,但仍存在一些错误,如物体颜色变化和不符合指令的生成结果。OpenAI正在努力使Sora成为用户创作和编辑内容的工具,并考虑添加元数据以标识视频来源,以应对真实与AI内容混淆的挑战。穆拉蒂强调了安全问题的...