Cloudflare žaluje Perplexity za sledování webových stránek bez povolení

Cloudflare obviňuje Perplexity z obcházení souboru robots.txt a maskování jeho procházení pomocí nedeklarovaných uživatelských agentů a IP adres.
Společnost tvrdí, že denně pozorovala změny ASN a miliony požadavků napříč desítkami tisíc domén.
Perplexity popírá jakékoli tajné praktiky, zpochybňuje metodologii a tvrdí, že její umělá inteligence funguje jinak než tradiční crawler.
Cloudflare vyřazuje Perplexity z ověřených seznamů botov a ve výchozím nastavení povoluje pravidla pro blokování sledování pomocí umělé inteligence.

Cloudflare spustil poplach zveřejněním zprávy, ve které obviňuje zmatek z pokračujícího procházení webových stránek navzdory překážkám, které obviňuje odpovědi poháněné umělou inteligencí umístěné jejich vlastníky. Podle poskytovatele infrastruktury by služba měla Soubor robots.txt ignorován a obejít síťové bloky pro přístup k zakázanému obsahu.

V prostředí, kde umělá inteligence spotřebovává data k trénování modelů a reaguje v reálném čase, rovnováha mezi inovací a respektováním pravidel webového ekosystému začíná být napjatýKontroverze znovu rozdmýchává debatu o tom, neoprávněné scrapingování a technické a etické limity, které by měli dodržovat ti, kdo vytvářejí produkty založené na velkém množství online informací.

Co Cloudflare reportuje a proč je to důležité

Procházení pomocí umělé inteligence a webové zásady

Společnost zabývající se zabezpečením a výkonem sítí uvádí, že obdržela stížnosti zákazníků jejichž stránky nadále získávaly přístup připisovaný Perplexity navzdory zakázat to v souboru robots.txt a uplatňovat pravidla WAF blokovat jimi deklarované trackery. Po prošetření Cloudflare tvrdí, že zjistil vzorec skryté sledování neslučitelné s preferencemi majitelů webových stránek.

Dodavatel tvrdí, že toto chování pozoroval u desítky tisíc domén a miliony požadavků denně, svazek, který podle jeho názoru ukazuje spíše systematické než nahodilé praktiky. V důsledku toho, odstranil Perplexity ze seznamu ověřených botů a aktivoval heuristiky a spravovaná pravidla pro zablokovat toto sledování ve výchozím stavu.

blokování webových stránek v prohlížeči Google Chrome

Související článek:

Jak blokovat webové stránky v prohlížeči Google Chrome bez externích aplikací

Jak by Zmatek překonal překážky

Podle Cloudflare, když vaše deklarovaní sledovatelé (identifikováno jmény uživatelských agentů Perplexity) došlo k pádu, systém by přešel do vydávat se za prohlížeč běžné, prezentující se, jako by to bylo Chrome v systému macOS maskovat svou identitu a vyhnout se detekci.

Exkluzivní obsah – klikněte zde Linkedin Jak vytvořit profil?

Kromě toho přístupy pocházely z nepublikované rozsahy IP adres zmatkem a často otáčené, což by ztížilo filtrování. Cloudflare také tvrdí, že zaznamenal změny v ASN (autonomní systémy) původ žádostí, další známka vyhýbání se blokům síť.

Výzkum uvádí, že pozorované chování nerespektoval by vzor z dobrých crawlerů popsaných v RFC 9309 a ve své politice „ověřených botů“: transparentnost identity (agent, IP adresy a kontakt), zklidnění dopravy, jasný cíl a respekt robots.txt již limity stanovené vlastníky webů.

Cloudflare tvrdí, že se mu to podařilo „Zanechat stopu“ k tomuto provozu prostřednictvím kombinace síťové signály a strojové učení, přidáváním podpisů do spravovaných pravidel, které tuto aktivitu identifikují a blokují, a to i pro zákazníky plán zdarma.

Související článek:

Nejlepší nástroje pro scraping webu v roce 2025

Testování s návnadovými doménami a výsledky

Aby tým potvrdil svá podezření, vytvořil nové a nepublikované domény (neindexované ani veřejně propojené) a aplikovali na ně zásady úplný zákaz souboru robots.txt, stejně jako specifická pravidla pro zákaz botů Perplexity. Po konzultaci s umělou inteligencí pro tyto stránky Cloudflare tvrdí, že dostal odpovědi s podrobnostmi o hostovaném obsahu, což by – pokud je to správné – naznačovalo přístup navzdory překážkám.

Exkluzivní obsah – klikněte zde Jak se používá Kaspersky Anti-Virus?

Když byl blok účinný, Cloudflare si všiml, že umělá inteligence Perplexity uchýlil se k alternativním zdrojům vytvořit odpověď, ale méně přesné a bez zvláštností původního materiálu, což odráží skutečnost, že omezení fungovalo.

Oficiální odpověď Perplexity

Zmatek a robots.txt

Zmatek, co se týče jeho strany, odmítá obvinění o skrytém sledování a tvrzeních, že Cloudflare nepochopeno součástí analyzované aktivity. Mluvčí společnosti popsali zprávu jako „komerční kus“ a tvrdí, že existují nějaké důkazy netestovali by skutečné přístupy nebo dokonce odpovídají boti jiných lidí.

Startup se také podělil o svůj postoj k publikace v X, kde zpochybňuje kapacitu detekční systémy rozlišovat mezi legitimní asistenti s umělou inteligencí, sledovací nástroje třetích stran a škodlivý provoz. Dále tvrdí, že agent vyhledávající včasné informace odpovědět na dotaz nefunguje to stejně než tradiční crawler, který hromadně prohledává web.

Opatření, osvědčené postupy a role dalších aktérů

V rámci své strategie má Cloudflare vyřazeno z Perplexity ze svého registru důvěryhodných botů a přidal pravidla pro blokování údajné skryté sledování. Společnost doporučuje, aby administrátoři aktivovali zásady proti botům, Aplikovat problémy když není žádoucí úplné blokování a použít proti němu specifická spravovaná pravidla Scraping z umělé inteligence.

Exkluzivní obsah – klikněte zde Jak nakonfigurovat skenování webu v McAfee AntiVirus Plus?

Ve své argumentaci Cloudflare srovnává případ s příklady dodržování předpisů osvědčených postupů s odkazem na aktéry, kteří respekt robots.txt, dokumentovat své agenty a přijímat nově vznikající standardy, jako například Autorizace webového botaV porovnávacích testech tvrdí, že ostatní boti zastavili se když narazíte na zákaz nebo blokování sítě, bez maskovaných opakování.

Související článek:

Vláda zveřejňuje oficiální seznam blokovaných webových stránek ve Španělsku: jak systém funguje a které domény se na něm zobrazují.

Konflikt, který ovlivňuje směr ekosystému

Perplexity prohledává webové stránky

Dodavatel očekává, že neustálý vývoj taktik provozovatelů botů a obranných mechanismů používaných k jejich potlačení. Souběžně se podílí na práci s odborníky a organizacemi, jako je například IETF k impulsu Rozšíření robots.txt a měřitelné principy, kterých by se měli dobře mínění sledovatelé řídit.

Kromě specifického pulsu případ klade na stůl i krize důvěry mezi tvůrci obsahu, platformami a společnostmi s umělou inteligencí: kdo může přístup k čemu, za jakých podmínek a jak udělej to průhledné aniž by se narušily obchodní modely nebo zpomalily inovace. Všechno nasvědčuje této konverzaci zůstane otevřeno zatímco agenti umělé inteligence získávají na významu a web upravuje svá pravidla koexistence.

Tato epizoda zanechává jasné poselství: Sledování s využitím umělé inteligence je pod drobnohledem, přičemž Cloudflare odsuzuje maskovací taktiky připisované společnosti Perplexity a startupu důrazně to popírá; uprostřed mají majitelé webů přístup k nové nástroje pro řízení přístupu a sadu dobré praxe ve výstavbě, která v nadcházejících měsících vyznačí hřiště.

Alberto navarro

Jsem technologický nadšenec, který ze svých „geekovských“ zájmů udělal profesi. Strávil jsem více než 10 let svého života používáním nejmodernějších technologií a vrtáním se všemi druhy programů z čisté zvědavosti. Nyní se specializuji na počítačovou techniku a videohry. Je to proto, že již více než 5 let píšu pro různé webové stránky o technologiích a videohrách a tvořím články, které se vám snaží poskytnout informace, které potřebujete, v jazyce, který je srozumitelný všem.

Pokud máte nějaké dotazy, mé znalosti sahají od všeho, co se týká operačního systému Windows a také Androidu pro mobilní telefony. A můj závazek je vůči vám, jsem vždy ochoten strávit pár minut a pomoci vám vyřešit jakékoli otázky, které můžete mít v tomto internetovém světě.