AI大模型时代:计算力与数据交易的博弈,Robots协议在存量竞争中的失效与互联网秩序挑战

AI大模型制造商们还在为盈利挣扎之际,英伟达凭借出售计算能力一举成为全球市值最高的公司,这再次证实了在淘金热中,卖工具的人往往最赚钱。然而,训练大型AI模型不仅需要计算力,还需要大量数据,于是Reddit、X等平台开始涉足数据交易业务。然而,这个市场正变得越来越具有挑战性。据路透社最近报道,内容授权初创公司TollBit警告出版商,一些人工智能公司正绕过防止内容被抓取的通用网络标准,将抓取的内容用于训练生成式AI系统。与此同时,《Wired》杂志也指出,AI搜索公司Perplexity涉嫌违反机器人排除协议,获取受限制的网络内容。此外,OpenAI曾使用YouTube视频训练模型,而谷歌也被曝修改用户协议以免费获取旗下平台用户数据。从巨头到初创企业,AI行业似乎普遍成了“数据猎手”。

长期以来,数据一直是训练AI大模型的基础,高质量的数据更是决定模型性能的关键。因此,AI公司不遗余力地购买全球各地的数据,但现有的数据交易量已经无法满足大模型的需求。当正规购买数据的途径受阻后,“窃取”数据似乎成了行业内默认的手段。例如,被一些AI公司忽视的Robots Exclusion Protocol(Robots协议),这是一个位于网站根目录下的文本文件,用来控制搜索引擎可以抓取网站的哪些内容。以淘宝2008年屏蔽百度搜索引擎为例,它通过设置Robots协议阻止了百度爬虫访问任何页面,从而保持了内部流量并建立了竞价排名体系。

Robots协议虽不具备法律约束力,但它已成为搜索引擎和网站共同遵循的非正式规则,实现了双方的共赢。然而,以Perplexity为代表的AI公司无视Robots协议,这种趋势可以被描述为“礼乐崩坏”。互联网早期的精神是开放、平等、协作,但现在随着流量红利的消失,互联网进入存量竞争阶段,AI厂商为了获取更多数据以提升模型性能,不惜违背这些原则。

问题在于,AI厂商无法提供令数据所有者满意的交换条件。以前,网站愿意让Googlebot抓取内容,是因为谷歌搜索能带来流量。但AI公司训练的模型可能取代网站,因此期望它们像对待搜索引擎一样接受AI厂商几乎是不可能的。在数据拥有者不愿提供,AI厂商又急需的情况下,“礼乐崩坏”现象不可避免。

本文来源: 三易生活公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...