近年来,关于人工智能模型训练数据的争议不断升温。一项由华盛顿大学、哥本哈根大学和斯坦福大学联合进行的新研究为 OpenAI 使用受版权保护训练其 AI 模型的指控提供了进一步支持。该研究揭示了 OpenAI 面临的法律挑战,并提出了识别模型“记忆”训练数据的新方法。
OpenAI 正被作家、程序员以及其他版权持有者起诉,指控其未经许可使用他们的作品(如书籍、代码库等)来开发 AI 模型。尽管 OpenAI 声称其行为符合“合理使用”的法律抗辩,但原告方认为美国版权法并未明确豁免用于训练数据的行为。
研究人员提出了一种基于“高意外性”词汇的方法,用以检测 AI 模型是否记忆了特定数据。这种方法通过分析模型对不常见词汇的预测能力,判断其是否在训练过程中记住了某些。例如,在句子“Jack and I sat perfectly still with the radar humming”中,“radar”一词因其低出现概率而被视为高意外性词汇。
研究人员测试了包括 GPT-4 和 GPT-3.5 在内的多种 OpenAI 模型。他们从虚构小说片段和《纽约时报》文章中移除高意外性词汇,然后让模型尝试填补这些空白。结果显示,GPT-4 记住了流行小说的部分,甚至包括一个包含受版权保护电子书样本的数据集 BookMIA 中的书籍。此外,该模型还记住了部分《纽约时报》文章的,尽管比例较低。
这一发现引发了对 AI 模型训练数据来源的广泛讨论。研究作者之一、华盛顿大学博士生阿比拉沙・拉维奇汉德(Abhilasha Ravichander)表示,这些结果表明模型可能接受了“有争议的数据”训练。与此同时,OpenAI 一直呼吁放宽对使用受版权保护数据的限制,并试图通过与版权所有者签订许可协议以及提供退出机制来缓解争议。然而,该公司仍在推动将“合理使用”规则纳入法律框架,以支持人工智能的发展。
本文来源: