Cloudflare se zaměřil na zmatek při sledování blokovaných webových stránek

Poslední aktualizace: 08/08/2025

  • Cloudflare obviňuje Perplexity z obcházení souboru robots.txt a maskování jeho procházení pomocí nedeklarovaných uživatelských agentů a IP adres.
  • Společnost tvrdí, že denně pozorovala změny ASN a miliony požadavků napříč desítkami tisíc domén.
  • Perplexity popírá jakékoli tajné praktiky, zpochybňuje metodologii a tvrdí, že její umělá inteligence funguje jinak než tradiční crawler.
  • Cloudflare vyřazuje Perplexity z ověřených seznamů botov a ve výchozím nastavení povoluje pravidla pro blokování sledování pomocí umělé inteligence.
Cloudflare žaluje Perplexity

Cloudflare spustil poplach zveřejněním zprávy, ve které obviňuje zmatek z pokračujícího procházení webových stránek navzdory překážkám, které obviňuje odpovědi poháněné umělou inteligencí umístěné jejich vlastníky. Podle poskytovatele infrastruktury by služba měla Soubor robots.txt ignorován a obejít síťové bloky pro přístup k zakázanému obsahu.

V prostředí, kde umělá inteligence spotřebovává data k trénování modelů a reaguje v reálném čase, rovnováha mezi inovací a respektováním pravidel webového ekosystému začíná být napjatýKontroverze znovu rozdmýchává debatu o tom, neoprávněné scrapingování a technické a etické limity, které by měli dodržovat ti, kdo vytvářejí produkty založené na velkém množství online informací.

Co Cloudflare reportuje a proč je to důležité

Procházení pomocí umělé inteligence a webové zásady

Společnost zabývající se zabezpečením a výkonem sítí uvádí, že obdržela stížnosti zákazníků jejichž stránky nadále získávaly přístup připisovaný Perplexity navzdory zakázat to v souboru robots.txt a uplatňovat pravidla WAF blokovat jimi deklarované trackery. Po prošetření Cloudflare tvrdí, že zjistil vzorec skryté sledování neslučitelné s preferencemi majitelů webových stránek.

Dodavatel tvrdí, že toto chování pozoroval u desítky tisíc domén a miliony požadavků denně, svazek, který podle jeho názoru ukazuje spíše systematické než nahodilé praktiky. V důsledku toho, odstranil Perplexity ze seznamu ověřených botů a aktivoval heuristiky a spravovaná pravidla pro zablokovat toto sledování ve výchozím stavu.

blokování webových stránek v prohlížeči Google Chrome
Související článek:
Jak blokovat webové stránky v prohlížeči Google Chrome bez externích aplikací

Jak by Zmatek překonal překážky

robots txt

Podle Cloudflare, když vaše deklarovaní sledovatelé (identifikováno jmény uživatelských agentů Perplexity) došlo k pádu, systém by přešel do vydávat se za prohlížeč běžné, prezentující se, jako by to bylo Chrome v systému macOS maskovat svou identitu a vyhnout se detekci.

Exkluzivní obsah – klikněte zde  Linkedin Jak vytvořit profil?

Kromě toho přístupy pocházely z nepublikované rozsahy IP adres zmatkem a často otáčené, což by ztížilo filtrování. Cloudflare také tvrdí, že zaznamenal změny v ASN (autonomní systémy) původ žádostí, další známka vyhýbání se blokům síť.

Výzkum uvádí, že pozorované chování nerespektoval by vzor z dobrých crawlerů popsaných v RFC 9309 a ve své politice „ověřených botů“: transparentnost identity (agent, IP adresy a kontakt), zklidnění dopravy, jasný cíl a respekt robots.txt již limity stanovené vlastníky webů.

Cloudflare tvrdí, že se mu to podařilo „Zanechat stopu“ k tomuto provozu prostřednictvím kombinace síťové signály a strojové učení, přidáváním podpisů do spravovaných pravidel, které tuto aktivitu identifikují a blokují, a to i pro zákazníky plán zdarma.

nástroje pro scrapbooking webu-2
Související článek:
Nejlepší nástroje pro scraping webu v roce 2025

Testování s návnadovými doménami a výsledky

Aby tým potvrdil svá podezření, vytvořil nové a nepublikované domény (neindexované ani veřejně propojené) a aplikovali na ně zásady úplný zákaz souboru robots.txt, stejně jako specifická pravidla pro zákaz botů Perplexity. Po konzultaci s umělou inteligencí pro tyto stránky Cloudflare tvrdí, že dostal odpovědi s podrobnostmi o hostovaném obsahu, což by – pokud je to správné – naznačovalo přístup navzdory překážkám.

Exkluzivní obsah – klikněte zde  Jak se používá Kaspersky Anti-Virus?

Když byl blok účinný, Cloudflare si všiml, že umělá inteligence Perplexity uchýlil se k alternativním zdrojům vytvořit odpověď, ale méně přesné a bez zvláštností původního materiálu, což odráží skutečnost, že omezení fungovalo.

Oficiální odpověď Perplexity

Zmatek a robots.txt

Zmatek, co se týče jeho strany, odmítá obvinění o skrytém sledování a tvrzeních, že Cloudflare nepochopeno součástí analyzované aktivity. Mluvčí společnosti popsali zprávu jako „komerční kus“ a tvrdí, že existují nějaké důkazy netestovali by skutečné přístupy nebo dokonce odpovídají boti jiných lidí.

Startup se také podělil o svůj postoj k publikace v X, kde zpochybňuje kapacitu detekční systémy rozlišovat mezi legitimní asistenti s umělou inteligencí, sledovací nástroje třetích stran a škodlivý provoz. Dále tvrdí, že agent vyhledávající včasné informace odpovědět na dotaz nefunguje to stejně než tradiční crawler, který hromadně prohledává web.

Opatření, osvědčené postupy a role dalších aktérů

V rámci své strategie má Cloudflare vyřazeno z Perplexity ze svého registru důvěryhodných botů a přidal pravidla pro blokování údajné skryté sledování. Společnost doporučuje, aby administrátoři aktivovali zásady proti botům, Aplikovat problémy když není žádoucí úplné blokování a použít proti němu specifická spravovaná pravidla Scraping z umělé inteligence.

Exkluzivní obsah – klikněte zde  Jak nakonfigurovat skenování webu v McAfee AntiVirus Plus?

Ve své argumentaci Cloudflare srovnává případ s příklady dodržování předpisů osvědčených postupů s odkazem na aktéry, kteří respekt robots.txt, dokumentovat své agenty a přijímat nově vznikající standardy, jako například Autorizace webového botaV porovnávacích testech tvrdí, že ostatní boti zastavili se když narazíte na zákaz nebo blokování sítě, bez maskovaných opakování.

Seznam blokovaných webových stránek ve Španělsku
Související článek:
Vláda zveřejňuje oficiální seznam blokovaných webových stránek ve Španělsku: jak systém funguje a které domény se na něm zobrazují.

Konflikt, který ovlivňuje směr ekosystému

Perplexity prohledává webové stránky

Dodavatel očekává, že neustálý vývoj taktik provozovatelů botů a obranných mechanismů používaných k jejich potlačení. Souběžně se podílí na práci s odborníky a organizacemi, jako je například IETF k impulsu Rozšíření robots.txt a měřitelné principy, kterých by se měli dobře mínění sledovatelé řídit.

Kromě specifického pulsu případ klade na stůl i krize důvěry mezi tvůrci obsahu, platformami a společnostmi s umělou inteligencí: kdo může přístup k čemu, za jakých podmínek a jak udělej to průhledné aniž by se narušily obchodní modely nebo zpomalily inovace. Všechno nasvědčuje této konverzaci zůstane otevřeno zatímco agenti umělé inteligence získávají na významu a web upravuje svá pravidla koexistence.

Tato epizoda zanechává jasné poselství: Sledování s využitím umělé inteligence je pod drobnohledem, přičemž Cloudflare odsuzuje maskovací taktiky připisované společnosti Perplexity a startupu důrazně to popírá; uprostřed mají majitelé webů přístup k nové nástroje pro řízení přístupu a sadu dobré praxe ve výstavbě, která v nadcházejících měsících vyznačí hřiště.