AI大模型时代：计算力与数据交易的博弈，Robots协议在存量竞争中的失效与互联网秩序挑战

在AI大模型制造商们还在为盈利挣扎之际，英伟达凭借出售计算能力一举成为全球市值最高的公司，这再次证实了在淘金热中，卖工具的人往往最赚钱。然而，训练大型AI模型不仅需要计算力，还需要大量数据，于是Reddit、X等平台开始涉足数据交易业务。然而，这个市场正变得越来越具有挑战性。据路透社最近报道，内容授权初创公司TollBit警告出版商，一些人工智能公司正绕过防止内容被抓取的通用网络标准，将抓取的内容用于训练生成式AI系统。与此同时，《Wired》杂志也指出，AI搜索公司Perplexity涉嫌违反机器人排除协议，获取受限制的网络内容。此外，OpenAI曾使用YouTube视频训练模型，而谷歌也被曝修改用户协议以免费获取旗下平台用户数据。从巨头到初创企业，AI行业似乎普遍成了“数据猎手”。

长期以来，数据一直是训练AI大模型的基础，高质量的数据更是决定模型性能的关键。因此，AI公司不遗余力地购买全球各地的数据，但现有的数据交易量已经无法满足大模型的需求。当正规购买数据的途径受阻后，“窃取”数据似乎成了行业内默认的手段。例如，被一些AI公司忽视的Robots Exclusion Protocol（Robots协议），这是一个位于网站根目录下的文本文件，用来控制搜索引擎可以抓取网站的哪些内容。以淘宝2008年屏蔽百度搜索引擎为例，它通过设置Robots协议阻止了百度爬虫访问任何页面，从而保持了内部流量并建立了竞价排名体系。

Robots协议虽不具备法律约束力，但它已成为搜索引擎和网站共同遵循的非正式规则，实现了双方的共赢。然而，以Perplexity为代表的AI公司无视Robots协议，这种趋势可以被描述为“礼乐崩坏”。互联网早期的精神是开放、平等、协作，但现在随着流量红利的消失，互联网进入存量竞争阶段，AI厂商为了获取更多数据以提升模型性能，不惜违背这些原则。

问题在于，AI厂商无法提供令数据所有者满意的交换条件。以前，网站愿意让Googlebot抓取内容，是因为谷歌搜索能带来流量。但AI公司训练的模型可能取代网站，因此期望它们像对待搜索引擎一样接受AI厂商几乎是不可能的。在数据拥有者不愿提供，AI厂商又急需的情况下，“礼乐崩坏”现象不可避免。

本文来源：

三易生活公众号【阅读原文】

# 每日AI快讯 # AI大模型 # Robots协议 # 存量竞争 # 数据交易 # 计算力

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

AI大模型时代：计算力与数据交易的博弈，Robots协议在存量竞争中的失效与互联网秩序挑战

欧盟竞争法规下，苹果公司拒绝AI技术Apple Intelligence进入欧洲市场引欧盟委员会专员震惊

AI通信革命：智能eSIM与联想懂的通信引领物联网智能连接新时代——探索智能座舱的未来

相关文章

暂无评论

AI最新资讯