全球最大的收集根本设备公司之一 Cloudflare 颁布发表推出 AI Labyrinth,这是一款新东西,用于匹敌未经许可从网坐上抓取 AI 锻炼数据的收集爬虫。该公司正在一篇博客文章中暗示,当检测到“不妥的行为”时,这款免费的可选东西会将爬虫诱惑到 AI 生成的钓饵页面的链接径上,这些页面会“减慢、混合并华侈”那些恶意行为者的资本。互联网持久以来一曲利用基于 robots。txt 的荣誉系统体例来节制抓取,这是一个文本文件,用于授予或爬虫法式的权限,但人工智能公司(以至是Anthropic和Perplexity AI等出名公司)被轻忽了它。Cloudflare 写道,它每天会收到跨越 500 亿个收集爬虫请求,虽然它有东西来发觉和恶意请求,但这往往会促使者正在“永无尽头的军备竞赛”中改变策略。Cloudflare 暗示,AI Labyrinth 不会拦截机械人,而是通过让它们处置取特定网坐的现实数据无关的数据来进行还击。该公司暗示,它还能够充任“下一代蜜罐”,吸惹人工智能爬虫不竭虚假页面的链接,而通俗人则不会如许做。它暗示,这使得 Cloudflare 的恶意行为者列表中更容易识别恶意机械人,以及识别它本来无法检测到的“新机械人模式和签名”。按照该帖子,这些链接不合错误人类拜候者可见。
我们发觉,先生成一组多样化的从题,然后为每个从题建立内容,对我们来说,主要的是不要生成不精确的内容,免得滋长互联网上错误消息的,因而我们生成的内容是实正在的而且取科学现实相关,只是取被抓取的网坐不相关或不是专有的。网坐办理员能够选择利用 AI Labyrinth,方式是到其坐点 Cloudflare 仪表板设置的“机械人办理”部门并启用它。该公司暗示,这“只是利用生成式 AI 机械人的第一次迭代”。
Cloudflare打算建立“整个链接 URL 收集”,正如Ars Technica指出的那样,AI Labyrinth 听起来雷同于 Nepenthes,后者是一种旨正在让爬虫正在 AI 生成的垃圾数据中“数月”处于弃捐形态的东西。