开源项目助力：有效应对AI爬虫带来的数据收集压力与带宽成本挑战，防范DDoS攻击风险，共建网络安全生态

随着AI技术的迅速发展，开源社区和网站运营者正面临日益严重的爬虫流量问题。以下是对这一现象的详细分析：

第一段
近日，软件开发者Xe Iaso在博客中分享了他的困境：亚马逊的大量AI爬虫流量对其Git存储库服务造成了极大的负担，导致服务频繁不稳定甚至停机。尽管采取了常规防御措施，如调整robots.txt文件、屏蔽已知爬虫用户代理以及过滤可疑流量，但这些方法似乎收效甚微。原因是这些AI爬虫能够伪装成普通用户代理，并通过住宅IP地址作为代理进行轮换，从而绕过传统防护机制。

第二段
Iaso在其名为“绝望的呼救”的文章中提到：“阻止AI爬虫几乎是不可能的任务，因为它们可以伪造身份、更改用户代理并使用住宅IP地址作为代理。”他担心如果情况持续恶化，可能不得不关闭Gitea服务器。这反映出一个正在开源社区内蔓延的危机——激进的AI爬虫活动正使许多关键基础设施不堪重负，其影响类似于DDoS攻击。

第三段
根据LibreNews的一份报告显示，部分开源项目的97%流量来自AI公司的爬虫机器人。这种大规模的访问不仅大幅增加了带宽成本，还导致服务不稳定，给维护人员带来了额外的压力。例如，Fedora Pagure项目管理员团队成员Kevin Fenzi在他的博客中提到，为了减少AI爬虫的影响，他们不得不屏蔽所有来自巴西的流量。

第四段
这种情况并非近期才出现。去年12月，Diaspora社交网络的维护者Dennis Schubert发现，AI爬虫请求占其总流量的70%，他将此描述为“针对整个互联网的DDoS攻击”。技术与经济成本因此显著上升。Read the Docs项目报告称，在屏蔽AI爬虫后，其每日流量从800GB骤降至200GB，每月节省约1500美元的带宽费用。

第五段
开源项目由于依赖公众协作且资源有限，受到的影响尤为严重。这些AI爬虫通常会故意绕过标准屏蔽措施，无视robots.txt指令，伪装用户代理并频繁更换IP地址。Hacker News上的讨论表明，评论者们对AI公司掠夺性行为表达了强烈不满。此外，这些爬虫经常访问占用大量资源的端点，如git blame和日志页面，进一步加剧了资源紧张。

第六段
SourceHut创始人Drew DeVault指出，这些爬虫会逐一访问每个git日志页面及存储库中的每次提交记录，对代码存储库造成巨大压力。不仅如此，AI生成的错误报告也逐渐增多，浪费了开发者的宝贵时间。Curl项目的Daniel Stenberg在博客中首次提到了这类问题，揭示了一些看似合理的报告实际上包含“AI编造的漏洞”。

第七段
AI公司在数据收集方面的行为一直备受争议。在2022年AI图像生成器和聊天机器人兴起之前，机器学习领域就普遍存在着“无视版权”编纂数据集的现象。尽管不同AI公司产生的影响程度各异，但舒伯特的分析显示，OpenAI、亚马逊和Anthropic等公司占据了大部分爬虫流量。这些爬虫通常每6小时重复访问一次，表明它们正在进行持续的数据更新。

第八段
为了应对这种威胁，一些新的防御工具应运而生。例如，“Aaron”设计的“Nepenthes”工具通过创建无尽的虚假迷宫来困住爬虫，增加其运营成本。Cloudflare则推出了商业化的“AI Labyrinth”工具，通过生成看似真实的页面吸引爬虫浏览，而非直接屏蔽请求。

第九段
当前，AI生成的增长速度令人担忧，而激进的网络爬虫行为正对重要网络资源的可持续性构成重大威胁。若没有有效的监管措施，AI公司与受影响平台之间的对抗可能会进一步升级。

本文来源：