反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

9月5日，根据《福布斯》报道，牛津大学的研究人员伊利亚·舒梅洛夫博士及其团队发现了一个有趣的现象：当生成式AI软件仅依赖自身生成的进行训练时，回答的质量会逐渐下降。这项研究成果已在《自然》杂志上发表。

研究显示，在最初的几次查询后，AI的回答开始出现偏差，到第五次查询时，质量明显下降；而在第九次连续查询后，回答几乎变成了无意义的胡言乱语。研究人员将这一现象称为“模型崩溃”，即AI在不断污染自己的训练数据后，输出的逐渐偏离现实，最终变得毫无价值。

舒梅洛夫博士表示：“令人惊讶的是，‘模型崩溃’发生得非常迅速且不易察觉。起初，它只影响到那些代表性不足的数据。随后，它会影响输出的多样性，导致差异性减少。有时，你会看到对多数数据的微小改进，但这掩盖了少数数据表现的恶化。‘模型崩溃’可能带来严重的后果。”

为了验证“模型崩溃”现象，研究人员使用了一个预训练的AI驱动的维基百科，并让AI模型基于自身生成的进行更新。随着受污染数据的影响逐渐加剧，原本的训练集被侵蚀，输出的信息也变得难以理解。例如，在第九次查询循环后，维基百科的一篇文章从关于14世纪英国教堂尖顶的变成了关于各种颜色短尾兔子的论文。

据报道，根据亚马逊网络服务（AWS）团队在6月发布的一项研究，大约57%的网络文本已经经过了AI算法的翻译。如果人类生成的数据迅速被AI过滤所替代，而舒梅洛夫的研究发现属实，那么AI可能会陷入“自我毁灭”的困境，同时也可能导致整个互联网的信息质量下降。

研究最终得出结论，要实现AI的长期可持续发展，必须确保其能够访问现有的非AI生成，并持续引入新的人工生成。

本文来源：

IT之家【阅读原文】

文章版权归作者所有，未经允许请勿转载。

422

418

462

402

495

619

暂无评论

您必须登录才能参与评论！

暂无评论...