而我们甚至对此无能为力。
最近,InfoQ 的一篇文章[1]整理总结了大语言模型发展的怪相:在耗尽整理好的、高质量的语料数据后,不少人工智能公司决定爬取互联网上的一切数据。
互联网爬虫并不少见,但是爬取策略如此激进的确实十分少见。Schubert 指出:其网站的绝大多数访问都来自这些人工智能爬虫,而且这些爬虫不仅爬取最新页面,还不停爬取页面的历史;除此之外,这些爬虫似乎都非常健忘,它们会反复爬取同一个页面,即使这个页面本身没有任何变化。[2]
当然,这些爬虫也不会老老实实遵守 robots.txt
的指令——它们爱怎么玩就怎么玩。不仅如此,假如你部署反制措施,它们还会想办法反反制。如果你给这些爬虫的 IP 限流,那么它们就会换一批 IP 卷土重来;如果你根据它们的 UA 字符串限流,它们甚至会换掉自己的 UA 字符串![2:1]
这件事并不是个例,iFixit 之前被 ClaudeBot 疯狂爬取,24 小时内产生了上百万次访问[3]。markerz 表示其网站因承受不住来自 Meta 的高频访问而崩溃,且在网站恢复后 Meta 爬虫会继续高频访问,直到网站再次崩溃。
这些 AI 爬虫正在摧毁互联网
请容我在这里说一句风凉话:爬虫的行为这么怪,怕不是用 AI 直接写的代码,没检查就上生产了。这种「能跑就行」的思维在 AI 应用中并不少见。
网络爬虫发展到现在,且不说有现成的爬虫库可以用,至少爬虫程序的基本礼仪已经是定型了:
- 遵循
robots.txt
的指令 - 使用固定的 UA 字符串和联系域名亮名身份
- 保持低并发量
- 允许用户指定不爬取某些域名或某些子项目
但这些 AI 爬虫显然一条都没有做到;或者第一条做了,但只做了一半。markerz 没能通过 robots.txt
限制 Meta 爬虫继续乱搞;iFixit 也没能通过 Crawl-Delay
指令阻止 ClaudeBot 的高并发[3:1]。其他爬虫虽然大体上能够遵守 robots.txt
, 但是这玩意不能阻止它们继续干诸如反复爬取同一个页面的傻事。
如果 AI 爬虫继续这样搞下去,那对于我们这种互联网小站用户来说,无异于每天都得吃 DDoS 攻击。虽然高 QPS 可以通过页面静态化 + CDN 缓存接下来,但是 CDN 流量费用可也不便宜。换上字节蜘蛛这种连带图片一起爬取的更是难搞[4]。
当然,我想更多作者在意的还是版权问题:
我的文章,你说拿走就拿走么?
AI 和搜索引擎的最大区别在于:搜索引擎至少会把你的网站链接贴出来,用户如果想要读取全文,那么他们至少得点进你的网站来看;但 AI 是一种替代,用户甚至压根不会知道支撑生成这段文本的结果究竟是从哪来的。
换句话说,我的文章,就这么被 AI 洗稿了。
robots.txt
的指令能否视为一种针对于 AI 的版权声明?AI 总结功能是否形成替代,进而属于侵权;还是这背后有足够多的原创性,所以这是对被引材料的合理使用?国内外对于这些情况都不好判断,毕竟立法总归是有迟滞的。
即使立法机构确定 robots.txt
具有法律效应,在实操上可能也存在若干问题:即使一些爬虫违背了 robots.txt
的指令,可能也很难举证维权。更不要提如果立法机构最终裁定 robots.txt
没有法律效应,那就会把一切回落到传统的版权架构上,对于小体量创作者而言更是地狱难度。天天耗时费力打官司对于个人创作者来说不现实,更不要提你甚至会被反咬一口[5][6]。
AI 下毒拉锯战
既然防不胜防,那不如调教猫娘。既然我的文章你想拿走,我给你一份假的,你是不是也压根看不出来呢?
基于这个思路,我们堵不如疏。如果检测到你是 AI 爬虫,那么直接给你一份不知所云的文档污染你的数据库好了。基于这个思路,Freitas 编写了一个 WordPress 插件[7]专门在 AI 爬虫访问时打乱正文。
只可惜静态站点就没有这种好运了。我能想到的最简单的方案就是生成一份单独的疯话页面并配合 Nginx 过滤规则针对 AI 爬虫返回不同的页面。但是要配置 CDN 学会这个技巧还得看厂商支持。
但是从 AI 从业者角度而言,这不过是低质量语料的一种罢了。本身从互联网上爬取的数据就需要清洗之后才能使用。我们的尝试很可能连第一轮清洗都过不去。如果不能号召互联网上足够的人来花时间花心思来部署 AI 反制措施,对于大模型而言,这只不过是多了一点需要筛除的无效数据罢了。
何去何从
或许这是一个我们不得不接受的现实:任何公开发表的内容,如果被盗用,最多能做到的就是行政上诉讼、道德上谴责。在大模型的尘埃落定之前,唯一稳健的方案就是:发表可以,但不要公开发表。把它埋到连搜索引擎都见不到的深网里去,把它分享到只能通过邀请才能加入的群聊中去。
他妈的,互联网怎么就成了这个样子。
褚杏娟, 核子可乐. “要点脸吧!”大模型巨头“吸血”网站资源无底线,开发者怒诉:“这简直在摧毁整个互联网”[EB/OL]. InfoQ. (2025-01-13)[2025-01-13]. https://www.infoq.cn/article/E0P5hXcxHoKDE2RxmSgG. ↩︎
Schubert D. Excerpt from a message I just posted in a #diaspora team internal forum category[EB/OL]. Geraspora. (2024-12-27)[2025-01-13]. https://pod.geraspora.de/posts/17342163. ↩︎ ↩︎
Weatherbed J. Anthropic’s crawler is ignoring websites’ anti-AI scraping policies[N/OL]. The Verge. (2024-06-25)[2025-01-13]. https://www.theverge.com/2024/7/25/24205943/anthropic-ai-web-crawler-claudebot-ifixit-scraping-training-data. ↩︎ ↩︎
Schubert D. Excerpt from a message I just posted in a #diaspora team internal forum category - Comment Thread[R/OL]. (2025-01-08)[2025-01-13]. https://pod.geraspora.de/posts/3d473600a616013da02e268acd52edbf#76685ad0afd7013d1b734600fc902022. ↩︎
黄宇帆, 小鸡词典. 小鸡7周年生日快乐(附二审结果[V/OL]. Bilibili. (2024-10-24)[2025-01-13]. https://b23.tv/rCkxmG2. ↩︎
差评. 那个被大厂抄袭的小鸡词典,败诉了,也解散了[EB/OL]. 微信公众平台. (2025-01-02)[2025-01-13]. https://mp.weixin.qq.com/s/SI9NENFV8oy-lVTqJj-FAA. ↩︎
Freitas K. AI Poison Pill[CP/OL]. Kevin Freitas. v1_0_20240304. https://kevinfreitas.net/tools-experiments/. ↩︎
正在加载评论……