英伟达版Sora被曝违规抓取大量数据，官方表示不服

英伟达Cosmos项目涉嫌违规抓取网络数据，官方回应争议

近期，一份内部泄露文件揭示了英伟达（NVIDIA）的一项代号为“Cosmos”的神秘项目，该项目负责人由研究副总裁刘洺堉担任。然而，随之而来的还有关于该项目涉嫌非法抓取大量网络数据的指控，涉及的平台包括YouTube和Netflix等。

根据404Media获得的泄露文件，英伟达每天都在抓取未经授权的数据，用于训练其最新研发的视频基础模型。该模型旨在结合光传输、物理和智能模拟技术，实现多种下游应用场景，如Omniverse 3D世界生成器、自动驾驶汽车系统和数字人产品等。据称，该项目每天抓取的数据量相当于一个人80年的视觉体验。

面对外界质疑，英伟达回应称其行为符合版权法的相关规定。公司强调，版权法保护的是特定的表达形式，而非事实、想法、数据或信息本身。因此，从公开来源获取这些元素并用于创新性目的（如模型训练）被视为合理使用。

尽管如此，YouTube和Netflix均表示未与英伟达就抓取达成任何协议。YouTube CEO在今年4月曾明确指出，若OpenAI使用YouTube视频进行模型训练，则违反了平台使用条款。同时，YouTube博主们正计划对OpenAI提起集体诉讼，指控其未经许可使用了大量YouTube视频资料来训练生成式AI模型。

值得一提的是，此类大规模数据抓取行为并非首次出现。过去，英伟达也曾利用游戏视频提高训练数据的质量。研究表明，最初基于互联网数据训练的大模型往往具有更好的性能表现。然而，随着AI数据的泛滥，数据质量的下降可能会导致大模型效果不佳。

针对这一事件，公众看法各异。一方面，有人认为利用公开数据进行技术创新无可厚非；另一方面，也有人担忧此类做法可能侵犯个人隐私权及知识产权。未来如何平衡技术进步与法律规范之间的关系，将成为一个重要议题。

本文来源：