- Cloudflare wirft Perplexity vor, robots.txt zu umgehen und sein Crawling mit nicht deklarierten Benutzeragenten und IP-Adressen zu maskieren.
- Das Unternehmen behauptet, täglich ASN-Änderungen und Millionen von Anfragen über Zehntausende von Domänen hinweg beobachtet zu haben.
- Perplexity bestreitet verdeckte Praktiken, stellt die Methodik in Frage und argumentiert, dass seine KI anders funktioniert als ein herkömmlicher Crawler.
- Cloudflare streicht Perplexity aus der Liste der verifizierten Bots und aktiviert Regeln zum standardmäßigen Blockieren der KI-Verfolgung.
Cloudflare hat Alarm geschlagen durch die Veröffentlichung eines Berichts, in dem wirft der KI-gestützten Antwortmaschine Perplexity vor, trotz Barrieren weiterhin Websites zu crawlen von ihren Eigentümern platziert. Nach Angaben des Infrastrukturanbieters hätte der Dienst robots.txt ignoriert und umgehen Sie Netzwerksperren, um auf verbotene Inhalte zuzugreifen.
In einer Landschaft, in der KI Daten verschlingt, um Modelle zu trainieren und in Echtzeit zu reagieren, Gleichgewicht zwischen Innovation und Respekt für die Regeln des Web-Ökosystems wird angespanntDie Kontroverse entfacht die Debatte über die unerlaubtes Scraping und die technischen und ethischen Grenzen, die diejenigen einhalten sollten, die Produkte auf der Grundlage großer Mengen Online-Informationen erstellen.
Was Cloudflare meldet und warum es wichtig ist

Das Unternehmen für Netzwerksicherheit und -leistung gibt an, es habe Beschwerden des Kunden deren Websites weiterhin Zugriff erhielten, der Perplexity zugeschrieben wurde, trotz verbieten Sie es in robots.txt und wenden Sie die Regeln der WAF um ihre deklarierten Tracker zu blockieren. Nach der Untersuchung behauptet Cloudflare, ein Muster von verdeckte Verfolgung nicht mit den Präferenzen der Website-Eigentümer vereinbar.
Der Lieferant behauptet, dieses Verhalten beobachtet zu haben in Zehntausende von Domänen und Millionen von Anfragen täglich, ein Band, der seiner Meinung nach eher systematische als zufällige Praktiken zeigt. Infolgedessen hat Perplexity aus seiner Liste der verifizierten Bots entfernt und hat Heuristiken aktiviert und Regeln verwaltet für dieses Tracking blockieren standardmäßig.
Wie die Ratlosigkeit die Barrieren überwunden hätte

Laut Cloudflare, wenn Ihr deklarierte Tracker (wie durch die Namen der Perplexity-Benutzeragenten identifiziert) einen Absturz erlitten hat, wechselte das System zu einen Browser imitieren gemeinsam, präsentiert sich, als ob es Chrome unter macOS ihre Identität zu verschleiern und Entdeckung meiden.
Darüber hinaus erfolgten die Zugriffe von unveröffentlichte IP-Bereiche durch Ratlosigkeit und häufig gedreht, was das Filtern erschwert hätte. Cloudflare behauptet auch, Änderungen in der ASN (Autonome Systeme) Herkunft der Anfragen, ein weiteres Zeichen für Blockumgehung Netzwerk.
Die Forschung erwähnt, dass das beobachtete Verhalten würde das Muster nicht respektieren der guten Crawler, die in beschrieben sind RFC 9309 und in seiner „Verifizierte Bots“-Richtlinie: Identitätstransparenz (Agent, IPs und Kontakt), Verkehrsberuhigung, ein klares Ziel und Respektiere robots.txt bereits die von den Site-Eigentümern festgelegten Grenzen.
Cloudflare sagt, es sei in der Lage gewesen, „einen Eindruck hinterlassen“ auf diesen Verkehr durch eine Kombination von Netzwerksignale und maschinelles Lernen, indem Sie Ihren verwalteten Regeln Signaturen hinzufügen, die diese Aktivität identifizieren und blockieren, auch für Kunden der freier Plan.
Testen mit Lockvogeldomänen und Ergebnissen
Um ihre Vermutungen zu bestätigen, erstellte das Team neue und unveröffentlichte Domänen (nicht indiziert oder öffentlich verlinkt) und eine Richtlinie auf sie angewendet vollständiges Verbot von robots.txt, sowie spezifische Regeln für das Verbot von Perplexity-Bots. Nach Rücksprache mit der KI für diese Websites behauptet Cloudflare, dass habe Antworten mit Details über den gehosteten Inhalt, etwas, das – wenn es richtig ist – darauf hinweisen würde Zugang trotz Barrieren.
Als die Sperre wirksam wurde, stellte Cloudflare fest, dass die KI von Perplexity auf alternative Quellen zurückgegriffen eine Antwort zu finden, aber weniger präzise und ohne die Besonderheiten des Originalmaterials, was widerspiegelt, dass die Die Einschränkung hatte funktioniert.
Die offizielle Antwort von Perplexity

Ratlosigkeit ihrerseits weist die Vorwürfe zurück von verdeckter Verfolgung und behauptet, dass Cloudflare falsch verstanden Teil der analysierten Aktivität. Unternehmenssprecher bezeichneten den Bericht als „kommerzielles Stück“ und sie behaupten, dass einige Beweise sie würden keine realen Zugriffe testen oder sogar entsprechen Bots anderer Leute.
Das Startup teilte auch seine Haltung zu Veröffentlichungen in X, wo er die Fähigkeit der Erkennungssysteme zu unterscheiden zwischen legitime KI-Assistenten, Tracker von Drittanbietern und bösartigem Datenverkehr. Darüber hinaus wird argumentiert, dass ein Agent, der aktuelle Informationen sucht auf eine Anfrage antworten es funktioniert nicht gleich als ein herkömmlicher Crawler, der das Web massenhaft durchsucht.
Maßnahmen, bewährte Verfahren und die Rolle anderer Akteure
Als Teil seiner Strategie hat Cloudflare von Perplexity dekotiert aus seinem Register vertrauenswürdiger Bots und hat hinzugefügt Regeln zum Blockieren seine angebliche versteckte Verfolgung. Das Unternehmen empfiehlt, dass Administratoren aktivieren Anti-Bot-Richtlinien, Anwenden Herausforderungen wenn eine vollständige Sperrung nicht erwünscht ist und spezielle verwaltete Regeln gegen die KI-Scraping.
Cloudflare stellt in seiner Argumentation den Fall gegenüber Beispiele für Compliance von Best Practices und nennt Akteure, die Respektiere robots.txt, dokumentieren Sie ihre Agenten und übernehmen Sie neue Standards wie Web-Bot-AuthentifizierungIn Vergleichstests behauptet es, dass andere Bots Sie hörten auf wenn Sie auf ein Netzwerkverbot oder eine Netzwerksperre stoßen, ohne getarnte Wiederholungsversuche.
Ein Konflikt, der den Verlauf des Ökosystems prägt

Der Lieferant erwartet eine ständige Entwicklung der Taktiken von Bot-Betreibern und der Abwehrmaßnahmen zu ihrer Eindämmung. Parallel dazu arbeitet er mit Experten und Organisationen wie der IETF impulsieren robots.txt-Erweiterungen und messbare Prinzipien, an die sich gutmeinende Tracker halten sollten.
Über den spezifischen Puls hinaus legt der Fall auf den Tisch die Vertrauenskrise zwischen Content-Erstellern, Plattformen und KI-Unternehmen: Wer kann Zugriff auf was, unter welchen Bedingungen und wie machen Sie es transparent ohne Geschäftsmodelle zu zerstören oder Innovationen zu verlangsamen. Alles deutet darauf hin, dass dieses Gespräch bleibt offen während KI-Agenten an Bedeutung gewinnen und das Web seine Regeln der Koexistenz anpasst.
Diese Episode hinterlässt eine klare Botschaft: KI-Tracking steht auf dem Prüfstand, wobei Cloudflare die Tarntaktiken anprangert, die Perplexity und dem Startup zugeschrieben werden es entschieden abstreiten; in der Mitte haben Site-Besitzer Zugriff auf neue Werkzeuge zur Zugriffskontrolle und eine Reihe von gute Praxis im Bau, die in den kommenden Monaten das Spielfeld markieren werden.
Ich bin ein Technik-Enthusiast, der seine „Geek“-Interessen zum Beruf gemacht hat. Ich habe mehr als 10 Jahre meines Lebens damit verbracht, modernste Technologie zu nutzen und aus purer Neugier an allen möglichen Programmen herumzubasteln. Mittlerweile habe ich mich auf Computertechnik und Videospiele spezialisiert. Das liegt daran, dass ich seit mehr als fünf Jahren für verschiedene Websites zum Thema Technologie und Videospiele schreibe und Artikel erstelle, die Ihnen die Informationen, die Sie benötigen, in einer für jeden verständlichen Sprache vermitteln möchten.
Bei Fragen reicht mein Wissen von allem rund um das Windows-Betriebssystem bis hin zu Android für Mobiltelefone. Und mein Engagement gilt Ihnen, ich bin immer bereit, ein paar Minuten zu investieren und Ihnen bei der Lösung aller Fragen in dieser Internetwelt zu helfen.