在个AI模型百家争鸣的今天,各家除了拼参数拼硬件,还有就是开始拼数据。其中很多数据都是从互联网上拿来的,比如OpenAI就拿到GitHub所有的公开仓库的代码用来训练网络。如何防止自己内容被人免费拿走这是现在和今后一段时间需要面对的问题,之前虫虫曾介绍一个图像混淆工具,通过在图片中插入特定的像素来反之LLM让其训练时候失效的方法。对付AI抓取,最大的免费CDN平台Cloudflare宣布推出一个新的工具AIndependence,可以在让其平台上所有CDN用户可以一键实现防爬防AI功能。今天我们就来学习了CF这个工具,当然如果你的内容和虫虫一样已经在用CF的CDN则可以直接享受这个福利了。
概述面对生成式人工智能快速发展,对于训练模型或运行推理的内容物料需求飞速增长。有一些AI供应商通过花钱来获取用户内容,比如谷歌每年支付6000万美元 来授权Reddit论坛的用户生内容;而且其他一些供应商则,通过一些技术手段在白剽,其中包括大名鼎鼎的OpenAI。最近著名影星“寡姐”斯嘉丽声称OpenAIGPT-4o在未经她同意的情况下使用她的声音作为他们的新个人助理。还有AI供应商Perplexity被指控冒充合法访问者以从网站上窃取内容。
OpenAI、Google LLC和其他几个市场参与者允许网站运营商选择不进行抓取(robots.txt)。然而,还有很多AI则完全忽视robots.txt并非用技术方法突破常规的防护来白剽一些隐私的数据。
为了帮助网站防止被这些AI白剽,Cloudflare推出了一个全新的一键式功能来屏蔽所有AI机器人。
AI机器人活动分析Cloudflare分析了网络上最流行的AI机器人的请求量,研究了常见的人工智能爬虫用户代理,并汇总了这些人代理发出的请求数量:
统计分析发现,排名Top4为Bytespider、Amazonbot、ClaudeBot和GPTBot是其中Bytespider为字节跳动,Bytespider用于收集其大型语言模型 (LLM) 的训练数据。Amazonbot和ClaudeBot紧随Bytespider。Amazonbot用于为Alexa问答系统编制内容索引的发送的请求数量位居第二,而用ClaudeBot于训练Claude聊天机器人。
在我们看到的顶级人工智能机器人中,Bytespider不仅在请求数量方面领先,而且在其互联网财产抓取的程度和被阻止的频率方面也领先。紧随其后的是 GPTBot,它在爬行和被阻止方面均排名第二。由OpenAI管理的GPTBot为其大模型收集培训数据,这些数据支撑着ChatGPT等人工智能驱动的产品。在下表中,“访问的网站份额”是指受Cloudflare 保护的网站被指定AI机器人访问的比例。
排名靠前的robots.txt条目进行了分析,以确定最常执行操作的AI机器人,然后查看我们在受Cloudflare保护的网站上看到这些机器人的频率。
最常在robots.txt 中引用GPTBot、CCBot和 Google ,但并没有明确禁止流行的AI爬虫,例如 Bytespider 和 ClaudeBot 。
随着互联网上充斥着这些人工智能机器人,仅仅6月一个月,人工智能机器人访通过Cloudflare CDN平台防问了前100万互联网资产中的约39%,但其中只有2.98%采取措施阻止或质疑这些请求。 此外,互联网资产的排名越高,就越有可能成为人工智能机器人的目标,相应地,就越有可能阻止此类请求。
网站运营商使robots.txt 完全阻止对这些人工智能爬虫的访问。然而,这些块依赖于AI机器人操作员尊重robots.txt并遵守RFC9309(确保用户的变化与所有匹配产品令牌)在访问互联网财产时诚实地识别他们是谁。
识别原理分析中发现有很多AI机器人操作员试图通过使用欺骗性的用户代理来伪装成用户浏览器。
当不良行为者试图大规模抓取网站时,通常会使用能够识别的工具和框架。对于请求生成指纹,使用Cloudflare的网络(平均每秒处理超过5700万个请求)来了解我们应该在多大程度上信任该指纹。为了支持,模型计算许多信号的全局聚合。基于这些信号,模型能够适当地将来自规避人工智能机器人的流量标记为机器人,就像上面提到的例子一样。利用全局信号来计算请求机器人得分,为每个网站请求打分,从1到99。数字越低,请求由机器人生成的可能性越大。对于像上面这样的人工智能机器人来说,可以正确地将它们识别为“可能的机器人”并将其评分。
全球聚合数据的结果是,可以立即检测新的抓取工具及其行为,而无需手动对机器人进行指纹识别,从而确保客户免受最新一波机器人活动的影响。
通过对这些机器人行为进行了分析,使用机器学习模型如何对来自该机器人的流量进行评分。如果机器人得分均低于30,则表明评分认为此活动很可能来自机器人。
对请求进行的评分图反映了使用最新模型,其中“较热”的颜色表示该范围内的请求较多,“较冷”的颜色表示该范围内的请求较少。可以看到绝大多数请求落入底部两个范围,这表明Cloudflare的模型给违规机器人的分数为9或更低。 用户代理的更改对分数没有影响。
任何现有WAF规则设置为挑战机器人分数低于30的访问者的客户都会自动阻止所有这些AI机器人流量,而无需采取任何新操作。对于使用类似技术来隐藏其活动的未来人工智能机器人来说也是如此。
为了避免遗漏,Cloudflare还提供了一个报告工具Cloudflare客户都可以提交有关AI机器人未经许可抓取网站的报告
总结基于请求指纹并结合机器学习模型来给站点访问进行打分,然后根据分值来分类AI机器人的活动,并对其进行限制,用大模型来对抗大模型似乎是目前唯一有效且适用的方法,国内大厂可以跟进了!