- Cloudflare 指责 Perplexity 绕过 robots.txt 并使用未声明的用户代理和 IP 地址掩盖其抓取行为。
- 该公司声称已经观察到数万个域名的 ASN 变化和每天数百万个请求。
- Perplexity 否认存在隐蔽行为,质疑其方法论,并认为其人工智能的工作方式与传统爬虫不同。
- Cloudflare 将 Perplexity 从已验证机器人名单中除名,并默认启用规则来阻止 AI 跟踪。
Cloudflare 已发出警报 通过发布一份报告, 指责人工智能答案引擎 Perplexity 无视障碍继续抓取网站 由其所有者放置。据基础设施提供商称,该服务将 robots.txt 被忽略 并绕过网络阻止来访问被禁内容。
在人工智能吞噬数据来训练模型并实时响应的环境中, 创新与尊重网络生态系统规则之间的平衡 变得紧张这场争议再次引发了关于 未经授权的抓取 以及那些基于大量在线信息构建产品的人应该遵守的技术和道德限制。
Cloudflare 报告的内容及其重要性

网络安全和性能公司表示已收到 客户投诉 尽管 在 robots.txt 中禁止它 并适用规则 WAF 阻止其声明的跟踪器。Cloudflare 经过调查后声称检测到了以下模式: 秘密追踪 与网站所有者的偏好不相符。
供应商声称在 数万个域名 和 每天有数百万个请求在他看来,这本书展现的是系统的实践,而非偶然的实践。因此, 已将 Perplexity 从其已验证机器人列表中移除 并已启动启发式方法和管理规则 阻止此跟踪 默认。
Perplexity 如何克服障碍

根据 Cloudflare 的说法,当您的 声明的追踪器 (由 Perplexity 用户代理名称标识)遇到崩溃,系统将转到 模拟浏览器 很常见,表现得好像 macOS 上的 Chrome 伪装自己的身份和 避免被发现.
此外,访问来自 未发布的 IP 范围 通过困惑和 经常轮换,这会使过滤变得困难。Cloudflare 还声称已经看到了 ASN(自治系统) 请求的来源,另一个迹象 阻止规避 网络。
研究提到,观察到的行为 不会尊重模式 描述的优秀爬虫 RFC 9309 并在其“已验证机器人”政策中:身份透明(代理、IP 和联系人), 交通平静化,明确的目标和 尊重 robots.txt 已经是网站所有者设定的限制。
Cloudflare 表示,它已经能够 “留下痕迹” 通过以下方式组合来处理此流量 网络信号和机器学习,将签名添加到您的托管规则中,以识别和阻止此活动,即使对于 免费计划.
使用诱饵域名进行测试并得出结果
为了证实他们的怀疑,该团队创建了 新的和未发布的域名 (未编入索引或公开链接)并对其应用了政策 全面禁止 robots.txt以及禁止 Perplexity 机器人的具体规则。在咨询了这些网站的 AI 后,Cloudflare 声称 得到了答案 关于托管内容的详细信息,如果正确的话,这将表明 克服障碍.
当阻止生效时,Cloudflare 观察到 Perplexity 的 AI 诉诸其他来源 建立回应,但是 不太精确 并且没有原始材料的特殊性,反映出 限制措施已奏效.
Perplexity 的官方回应

困惑,就其本身而言, 否认指控 隐蔽跟踪以及 Cloudflare 声称 被误解 所分析活动的一部分。公司发言人将该报告描述为 “商业片” 他们声称,一些证据 他们不会测试真实的访问 甚至对应于 其他人的机器人.
该初创公司还分享了其立场 X 出版物,他质疑 检测系统 区分 合法的人工智能助手、第三方追踪器和恶意流量。此外,它还认为 寻求及时信息的代理 回答询问 效果不一样 比传统的大规模爬虫网络爬虫要快得多。
措施、良好做法和其他行为体的作用
作为其战略的一部分,Cloudflare 已 从 Perplexity 中除名 从其受信任的机器人注册表中,并添加了 阻止规则 其所谓的隐藏追踪功能。该公司建议管理员激活 反机器人政策, 申请 挑战 当不需要完全阻止并使用特定的托管规则时 AI抓取.
Cloudflare 在辩论中将此案与 合规示例 最佳实践,列举了 尊重 robots.txt记录他们的代理并采用新兴标准,例如 Web 机器人身份验证在对比测试中,它声称其他机器人 他们停了下来 当遭遇网络禁令或阻断时, 无需伪装重试.
一场标志着生态系统进程的冲突

供应商预计 不断发展 机器人操作员的策略以及用于遏制它们的防御措施。同时,他还参与了与专家和组织(例如 IETF 冲动 robots.txt 扩展 以及善意追踪者应该遵守的可衡量的原则。
除了具体的脉搏之外,该案件还提出了 信任危机 内容创作者、平台和人工智能公司之间:谁能 访问什么在什么条件下以及如何 使其透明 不会破坏商业模式,也不会减缓创新。一切都指向这场对话 将继续开放 随着人工智能代理变得越来越突出,网络也调整了其共存规则。
这段故事传达了一个明确的信息: 人工智能追踪正在接受审查Cloudflare 谴责 Perplexity 和这家初创公司的伪装策略 坚决否认;在中间,网站所有者可以访问 新工具 控制访问和一组 良好做法 正在建设中,将在未来几个月内标志着比赛场地的建成。
我是一名技术爱好者,已将自己的“极客”兴趣变成了职业。出于纯粹的好奇心,我花了 10 多年的时间使用尖端技术并修改各种程序。现在我专攻计算机技术和视频游戏。这是因为 5 年多来,我一直在为各种技术和视频游戏网站撰写文章,旨在以每个人都能理解的语言为您提供所需的信息。
如果您有任何疑问,我的知识范围涵盖与 Windows 操作系统以及手机 Android 相关的所有内容。我对您的承诺是,我总是愿意花几分钟帮助您解决在这个互联网世界中可能遇到的任何问题。