反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

9月5日,根据《福布斯》报道,牛津大学的研究人员伊利亚·舒梅洛夫博士及其团队发现了一个有趣的现象:当生成式AI软件仅依赖自身生成的进行训练时,回答的质量会逐渐下降。这项研究成果已在《自然》杂志上发表。

研究显示,在最初的几次查询后,AI的回答开始出现偏差,到第五次查询时,质量明显下降;而在第九次连续查询后,回答几乎变成了无意义的胡言乱语。研究人员将这一现象称为“模型崩溃”,即AI在不断污染自己的训练数据后,输出的逐渐偏离现实,最终变得毫无价值。

舒梅洛夫博士表示:“令人惊讶的是,‘模型崩溃’发生得非常迅速且不易察觉。起初,它只影响到那些代表性不足的数据。随后,它会影响输出的多样性,导致差异性减少。有时,你会看到对多数数据的微小改进,但这掩盖了少数数据表现的恶化。‘模型崩溃’可能带来严重的后果。”

为了验证“模型崩溃”现象,研究人员使用了一个预训练的AI驱动的维基百科,并让AI模型基于自身生成的进行更新。随着受污染数据的影响逐渐加剧,原本的训练集被侵蚀,输出的信息也变得难以理解。例如,在第九次查询循环后,维基百科的一篇文章从关于14世纪英国教堂尖顶的变成了关于各种颜色短尾兔子的论文。

据报道,根据亚马逊网络服务(AWS)团队在6月发布的一项研究,大约57%的网络文本已经经过了AI算法的翻译。如果人类生成的数据迅速被AI过滤所替代,而舒梅洛夫的研究发现属实,那么AI可能会陷入“自我毁灭”的困境,同时也可能导致整个互联网的信息质量下降。

研究最终得出结论,要实现AI的长期可持续发展,必须确保其能够访问现有的非AI生成,并持续引入新的人工生成。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...