利用百度百科与robots.txt：策略性防止内容被抓取及在AI训练中的应用 — 百度百科如何屏蔽谷歌/必应等搜索引擎

百度百科更新搜索引擎抓取规则：仅限部分引擎访问

近期，据快科技8月22日报道，百度百科调整了其搜索引擎抓取政策，限制了大部分搜索引擎对其内容的抓取权限，此举旨在防止未经许可的内容抓取行为，尤其是避免被用于人工智能训练。

更新的robots.txt文件详情

百度百科在其robots.txt文件中明确了当前获准抓取其内容的搜索引擎名单，其中包括百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider以及宜搜搜索(EasouSpider)等少数几款搜索引擎。值得注意的是，谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider等其他主流搜索引擎及其爬虫则被明确禁止访问百度百科内容。

尽管360搜索并未在官方封禁列表中单独提及，但由于百度百科实行全面禁止非白名单爬虫的策略，实际上包括360搜索在内的其他搜索引擎同样受到了限制。

实际效果分析

尽管百度百科采取了上述措施来保护其内容，但这一策略可能只能防止遵守规则的爬虫，对于那些采用非常规手段抓取数据的爬虫来说，效果有限。因此，预计仍有不少爬虫会通过各种途径继续获取百度百科的信息，并用于人工智能模型的训练。

本文来源：