- Cloudflare obviňuje Perplexity z obcházení souboru robots.txt a maskování jeho procházení pomocí nedeklarovaných uživatelských agentů a IP adres.
- Společnost tvrdí, že denně pozorovala změny ASN a miliony požadavků napříč desítkami tisíc domén.
- Perplexity popírá jakékoli tajné praktiky, zpochybňuje metodologii a tvrdí, že její umělá inteligence funguje jinak než tradiční crawler.
- Cloudflare vyřazuje Perplexity z ověřených seznamů botov a ve výchozím nastavení povoluje pravidla pro blokování sledování pomocí umělé inteligence.
Cloudflare spustil poplach zveřejněním zprávy, ve které obviňuje zmatek z pokračujícího procházení webových stránek navzdory překážkám, které obviňuje odpovědi poháněné umělou inteligencí umístěné jejich vlastníky. Podle poskytovatele infrastruktury by služba měla Soubor robots.txt ignorován a obejít síťové bloky pro přístup k zakázanému obsahu.
V prostředí, kde umělá inteligence spotřebovává data k trénování modelů a reaguje v reálném čase, rovnováha mezi inovací a respektováním pravidel webového ekosystému začíná být napjatýKontroverze znovu rozdmýchává debatu o tom, neoprávněné scrapingování a technické a etické limity, které by měli dodržovat ti, kdo vytvářejí produkty založené na velkém množství online informací.
Co Cloudflare reportuje a proč je to důležité

Společnost zabývající se zabezpečením a výkonem sítí uvádí, že obdržela stížnosti zákazníků jejichž stránky nadále získávaly přístup připisovaný Perplexity navzdory zakázat to v souboru robots.txt a uplatňovat pravidla WAF blokovat jimi deklarované trackery. Po prošetření Cloudflare tvrdí, že zjistil vzorec skryté sledování neslučitelné s preferencemi majitelů webových stránek.
Dodavatel tvrdí, že toto chování pozoroval u desítky tisíc domén a miliony požadavků denně, svazek, který podle jeho názoru ukazuje spíše systematické než nahodilé praktiky. V důsledku toho, odstranil Perplexity ze seznamu ověřených botů a aktivoval heuristiky a spravovaná pravidla pro zablokovat toto sledování ve výchozím stavu.
Jak by Zmatek překonal překážky

Podle Cloudflare, když vaše deklarovaní sledovatelé (identifikováno jmény uživatelských agentů Perplexity) došlo k pádu, systém by přešel do vydávat se za prohlížeč běžné, prezentující se, jako by to bylo Chrome v systému macOS maskovat svou identitu a vyhnout se detekci.
Kromě toho přístupy pocházely z nepublikované rozsahy IP adres zmatkem a často otáčené, což by ztížilo filtrování. Cloudflare také tvrdí, že zaznamenal změny v ASN (autonomní systémy) původ žádostí, další známka vyhýbání se blokům síť.
Výzkum uvádí, že pozorované chování nerespektoval by vzor z dobrých crawlerů popsaných v RFC 9309 a ve své politice „ověřených botů“: transparentnost identity (agent, IP adresy a kontakt), zklidnění dopravy, jasný cíl a respekt robots.txt již limity stanovené vlastníky webů.
Cloudflare tvrdí, že se mu to podařilo „Zanechat stopu“ k tomuto provozu prostřednictvím kombinace síťové signály a strojové učení, přidáváním podpisů do spravovaných pravidel, které tuto aktivitu identifikují a blokují, a to i pro zákazníky plán zdarma.
Testování s návnadovými doménami a výsledky
Aby tým potvrdil svá podezření, vytvořil nové a nepublikované domény (neindexované ani veřejně propojené) a aplikovali na ně zásady úplný zákaz souboru robots.txt, stejně jako specifická pravidla pro zákaz botů Perplexity. Po konzultaci s umělou inteligencí pro tyto stránky Cloudflare tvrdí, že dostal odpovědi s podrobnostmi o hostovaném obsahu, což by – pokud je to správné – naznačovalo přístup navzdory překážkám.
Když byl blok účinný, Cloudflare si všiml, že umělá inteligence Perplexity uchýlil se k alternativním zdrojům vytvořit odpověď, ale méně přesné a bez zvláštností původního materiálu, což odráží skutečnost, že omezení fungovalo.
Oficiální odpověď Perplexity

Zmatek, co se týče jeho strany, odmítá obvinění o skrytém sledování a tvrzeních, že Cloudflare nepochopeno součástí analyzované aktivity. Mluvčí společnosti popsali zprávu jako „komerční kus“ a tvrdí, že existují nějaké důkazy netestovali by skutečné přístupy nebo dokonce odpovídají boti jiných lidí.
Startup se také podělil o svůj postoj k publikace v X, kde zpochybňuje kapacitu detekční systémy rozlišovat mezi legitimní asistenti s umělou inteligencí, sledovací nástroje třetích stran a škodlivý provoz. Dále tvrdí, že agent vyhledávající včasné informace odpovědět na dotaz nefunguje to stejně než tradiční crawler, který hromadně prohledává web.
Opatření, osvědčené postupy a role dalších aktérů
V rámci své strategie má Cloudflare vyřazeno z Perplexity ze svého registru důvěryhodných botů a přidal pravidla pro blokování údajné skryté sledování. Společnost doporučuje, aby administrátoři aktivovali zásady proti botům, Aplikovat problémy když není žádoucí úplné blokování a použít proti němu specifická spravovaná pravidla Scraping z umělé inteligence.
Ve své argumentaci Cloudflare srovnává případ s příklady dodržování předpisů osvědčených postupů s odkazem na aktéry, kteří respekt robots.txt, dokumentovat své agenty a přijímat nově vznikající standardy, jako například Autorizace webového botaV porovnávacích testech tvrdí, že ostatní boti zastavili se když narazíte na zákaz nebo blokování sítě, bez maskovaných opakování.
Konflikt, který ovlivňuje směr ekosystému

Dodavatel očekává, že neustálý vývoj taktik provozovatelů botů a obranných mechanismů používaných k jejich potlačení. Souběžně se podílí na práci s odborníky a organizacemi, jako je například IETF k impulsu Rozšíření robots.txt a měřitelné principy, kterých by se měli dobře mínění sledovatelé řídit.
Kromě specifického pulsu případ klade na stůl i krize důvěry mezi tvůrci obsahu, platformami a společnostmi s umělou inteligencí: kdo může přístup k čemu, za jakých podmínek a jak udělej to průhledné aniž by se narušily obchodní modely nebo zpomalily inovace. Všechno nasvědčuje této konverzaci zůstane otevřeno zatímco agenti umělé inteligence získávají na významu a web upravuje svá pravidla koexistence.
Tato epizoda zanechává jasné poselství: Sledování s využitím umělé inteligence je pod drobnohledem, přičemž Cloudflare odsuzuje maskovací taktiky připisované společnosti Perplexity a startupu důrazně to popírá; uprostřed mají majitelé webů přístup k nové nástroje pro řízení přístupu a sadu dobré praxe ve výstavbě, která v nadcházejících měsících vyznačí hřiště.
Jsem technologický nadšenec, který ze svých „geekovských“ zájmů udělal profesi. Strávil jsem více než 10 let svého života používáním nejmodernějších technologií a vrtáním se všemi druhy programů z čisté zvědavosti. Nyní se specializuji na počítačovou techniku a videohry. Je to proto, že již více než 5 let píšu pro různé webové stránky o technologiích a videohrách a tvořím články, které se vám snaží poskytnout informace, které potřebujete, v jazyce, který je srozumitelný všem.
Pokud máte nějaké dotazy, mé znalosti sahají od všeho, co se týká operačního systému Windows a také Androidu pro mobilní telefony. A můj závazek je vůči vám, jsem vždy ochoten strávit pár minut a pomoci vám vyřešit jakékoli otázky, které můžete mít v tomto internetovém světě.