英伟达Cosmos项目涉嫌违规抓取网络数据,官方回应争议
近期,一份内部泄露文件揭示了英伟达(NVIDIA)的一项代号为“Cosmos”的神秘项目,该项目负责人由研究副总裁刘洺堉担任。然而,随之而来的还有关于该项目涉嫌非法抓取大量网络数据的指控,涉及的平台包括YouTube和Netflix等。
根据404Media获得的泄露文件,英伟达每天都在抓取未经授权的数据,用于训练其最新研发的视频基础模型。该模型旨在结合光传输、物理和智能模拟技术,实现多种下游应用场景,如Omniverse 3D世界生成器、自动驾驶汽车系统和数字人产品等。据称,该项目每天抓取的数据量相当于一个人80年的视觉体验。
面对外界质疑,英伟达回应称其行为符合版权法的相关规定。公司强调,版权法保护的是特定的表达形式,而非事实、想法、数据或信息本身。因此,从公开来源获取这些元素并用于创新性目的(如模型训练)被视为合理使用。
尽管如此,YouTube和Netflix均表示未与英伟达就抓取达成任何协议。YouTube CEO在今年4月曾明确指出,若OpenAI使用YouTube视频进行模型训练,则违反了平台使用条款。同时,YouTube博主们正计划对OpenAI提起集体诉讼,指控其未经许可使用了大量YouTube视频资料来训练生成式AI模型。
值得一提的是,此类大规模数据抓取行为并非首次出现。过去,英伟达也曾利用游戏视频提高训练数据的质量。研究表明,最初基于互联网数据训练的大模型往往具有更好的性能表现。然而,随着AI数据的泛滥,数据质量的下降可能会导致大模型效果不佳。
针对这一事件,公众看法各异。一方面,有人认为利用公开数据进行技术创新无可厚非;另一方面,也有人担忧此类做法可能侵犯个人隐私权及知识产权。未来如何平衡技术进步与法律规范之间的关系,将成为一个重要议题。
本文来源: 量子位【阅读原文】