Cloudflare sa zameral na zmätok pri sledovaní blokovaných webových stránok

Posledná aktualizácia: 08/08/2025

  • Cloudflare obviňuje Perplexity z obchádzania súboru robots.txt a maskovania jeho prehľadávania pomocou nedeklarovaných používateľských agentov a IP adries.
  • Spoločnosť tvrdí, že denne zaznamenala zmeny ASN a milióny požiadaviek naprieč desiatkami tisíc domén.
  • Perplexity popiera tajné praktiky, spochybňuje metodiku a tvrdí, že jej umelá inteligencia funguje inak ako tradičný crawler.
  • Cloudflare odstráni Perplexity ako overeného bota a štandardne povoľuje pravidlá na blokovanie sledovania pomocou umelej inteligencie.
Cloudflare žaluje Perplexity

Cloudflare spustil poplach zverejnením správy, v ktorej obviňuje zmätok z pokračujúceho prehľadávania webových stránok napriek prekážkam, ktoré fungujú na princípe odpovede s umelou inteligenciou. umiestnené ich vlastníkmi. Podľa poskytovateľa infraštruktúry by služba mala Súbor robots.txt sa ignoroval a obísť sieťové bloky, aby ste získali prístup k zakázanému obsahu.

V prostredí, kde umelá inteligencia využíva dáta na trénovanie modelov a reakciu v reálnom čase, rovnováha medzi inováciou a rešpektovaním pravidiel webového ekosystému sa stáva napätýmKontroverzia znovu rozdúchava diskusiu o tom, neoprávnené scrapingovanie a technické a etické obmedzenia, ktoré by mali dodržiavať tí, ktorí vytvárajú produkty založené na veľkom množstve online informácií.

Čo Cloudflare hlási a prečo je to dôležité

Prehľadávanie pomocou umelej inteligencie a webové pravidlá

Spoločnosť zaoberajúca sa sieťovou bezpečnosťou a výkonom uvádza, že dostala sťažnosti zákazníkov ktorých stránky naďalej dostávali prístup pripisovaný spoločnosti Perplexity napriek zakázať to v súbore robots.txt a uplatňovať pravidlá WAF blokovať ich deklarované sledovacie zariadenia. Po prešetrení Cloudflare tvrdí, že zistil vzorec skryté sledovanie nezlučiteľné s preferenciami vlastníkov webových stránok.

Dodávateľ tvrdí, že toto správanie pozoroval v desiatky tisíc domén a milióny žiadostí denne, zväzok, ktorý podľa jeho názoru ukazuje skôr systematické než náhodné praktiky. V dôsledku toho, odstránil Perplexity zo zoznamu overených botov a aktivoval heuristiky a spravované pravidlá pre zablokovať toto sledovanie predvolene.

blokovať webové stránky v prehliadači Google Chrome
Súvisiaci článok:
Ako blokovať webové stránky v prehliadači Google Chrome bez externých aplikácií

Ako by Zmätok prekonal bariéry

roboty txt

Podľa Cloudflare, keď váš deklarovaní sledovatelia (identifikované názvami používateľských agentov Perplexity) došlo k zlyhaniu, systém prešiel do vydávať sa za prehliadač bežné, prezentujúce sa, akoby to bolo Chrome v systéme macOS maskovať svoju identitu a vyhnúť sa detekcii.

Exkluzívny obsah – kliknite sem  Ako získať internet zadarmo

Okrem toho prístupy pochádzali z nezverejnené rozsahy IP adries zmätenosťou a často otáčaný, čo by sťažilo filtrovanie. Cloudflare tiež tvrdí, že zaznamenal zmeny v ASN (autonómne systémy) pôvod žiadostí, ďalší znak obchádzanie blokov siete.

Výskum uvádza, že pozorované správanie nerešpektoval by vzorec z dobrých prehľadávačov opísaných v RFC 9309 a vo svojej politike „overených botov“: transparentnosť identity (agent, IP adresy a kontakt), upokojenie dopravy, jasný cieľ a rešpekt robots.txt už limity stanovené vlastníkmi stránok.

Cloudflare tvrdí, že sa mu to podarilo „Zanechať stopu“ k tejto premávke prostredníctvom kombinácie sieťové signály a strojové učenie, pridaním podpisov do spravovaných pravidiel, ktoré identifikujú a blokujú túto aktivitu, a to aj pre zákazníkov plán zadarmo.

nástroje na scrapbooking webu-2
Súvisiaci článok:
Najlepšie nástroje na scraping webu v roku 2025

Testovanie s návnadovými doménami a výsledky

Aby potvrdil svoje podozrenia, tím vytvoril nové a nezverejnené domény (neindexované ani verejne prepojené) a uplatnili na ne pravidlá úplný zákaz súboru robots.txt, ako aj špecifické pravidlá pre zákaz botov Perplexity. Po konzultácii s umelou inteligenciou pre tieto stránky Cloudflare tvrdí, že dostal odpovede s podrobnosťami o hostovanom obsahu, čo by – ak by bolo správne – naznačovalo prístup napriek prekážkam.

Exkluzívny obsah – kliknite sem  Čo sú to zadarmo Aliexpress?

Keď bol blok účinný, Cloudflare si všimol, že umelá inteligencia Perplexity uchýlili sa k alternatívnym zdrojom vytvoriť odpoveď, ale menej presné a bez špecifík pôvodného materiálu, čo odráža, že obmedzenie fungovalo.

Oficiálna odpoveď Perplexity

Zmätok a súbor robots.txt

Zmätok, zo svojej strany, odmieta obvinenia o tajnom sledovaní a tvrdeniach, že Cloudflare nepochopený súčasťou analyzovanej aktivity. Hovorcovia spoločnosti označili správu za „Komerčný kus“ a tvrdia, že existujú nejaké dôkazy netestovali by skutočné prístupy alebo dokonca zodpovedajú boty iných ľudí.

Startup sa tiež podelil o svoj postoj k publikácie v X, kde spochybňuje kapacitu detekčné systémy rozlišovať medzi legitímni asistenti s umelou inteligenciou, sledovacie zariadenia tretích strán a škodlivá prevádzka. Okrem toho tvrdí, že agent hľadajúci včasné informácie odpovedať na otázku nefunguje to rovnako než tradičný prehľadávač, ktorý hromadne prehľadáva web.

Opatrenia, osvedčené postupy a úloha ostatných aktérov

Ako súčasť svojej stratégie má Cloudflare vyradené z Perplexity zo svojho registra dôveryhodných botov a pridal pravidlá pre blokovanie údajné skryté sledovanie. Spoločnosť odporúča, aby správcovia aktivovali zásady proti botom, Použiť výzvy keď nie je žiaduce úplné blokovanie a použiť proti nemu špecifické spravované pravidlá Zoškrabovanie AI.

Exkluzívny obsah – kliknite sem  Ako odstrániť trójske kone

Vo svojej argumentácii Cloudflare porovnáva prípad s príklady dodržiavania predpisov osvedčených postupov s odvolaním sa na aktérov, ktorí rešpekt robots.txt, dokumentovať svojich agentov a prijať nové štandardy, ako napríklad Autorizácia webového botaV porovnávacích testoch tvrdí, že iné boty zastavili sa keď narazíte na zákaz alebo blokovanie siete, bez maskovaných opakovaní.

Zoznam blokovaných webových stránok v Španielsku
Súvisiaci článok:
Vláda zverejňuje oficiálny zoznam blokovaných webových stránok v Španielsku: ako systém funguje a ktoré domény sa zobrazujú.

Konflikt, ktorý ovplyvňuje smerovanie ekosystému

Perplexity prehľadáva webové stránky

Dodávateľ očakáva, že neustály vývoj taktík operátorov botov a obranných mechanizmov používaných na ich obmedzenie. Súbežne sa podieľa na práci s odborníkmi a organizáciami, ako napríklad IETF impulzovať Rozšírenia robots.txt a merateľné zásady, ktorých by sa mali dobre mienení sledovatelia riadiť.

Okrem špecifického pulzu prípad kladie na stôl aj kríza dôvery medzi tvorcami obsahu, platformami a spoločnosťami s umelou inteligenciou: kto môže prístup k čomu, za akých podmienok a ako urob to transparentným bez narušenia obchodných modelov alebo spomalenia inovácií. Všetko poukazuje na túto konverzáciu zostane otvorené zatiaľ čo agenti umelej inteligencie získavajú na význame a web upravuje svoje pravidlá koexistencie.

Táto epizóda zanecháva jasné posolstvo: Sledovanie umelou inteligenciou je pod drobnohľadom, pričom Cloudflare odsudzuje maskovacie taktiky pripisované spoločnosti Perplexity a startupu dôrazne to popiera; v strede majú majitelia stránok prístup k nové nástroje na kontrolu prístupu a súbor osvedčených postupov vo výstavbe, ktorá v nasledujúcich mesiacoch vyznačí ihrisko.