Cloudflare'i poolt blokeeritud veebisaitide jälgimiseks suunatud hämmeldus

Viimane uuendus: 08/08/2025

  • Cloudflare süüdistab Perplexityt robots.txt faili möödahiilimises ja selle indekseerimise varjamises deklareerimata kasutajaagentide ja IP-aadressidega.
  • Ettevõte väidab, et on täheldanud ASN-i muudatusi ja miljoneid päringuid iga päev kümnetes tuhandetes domeenides.
  • Perplexity eitab varjatud praktikaid, seab kahtluse alla metoodika ja väidab, et nende tehisintellekt töötab teistmoodi kui traditsiooniline roomik.
  • Cloudflare eemaldab Perplexity kontrollitud bottide nimekirjast ja lubab reeglitel vaikimisi tehisintellekti jälgimist blokeerida.
Cloudflare kaebab Perplexity kohtusse

Cloudflare on häirekella tõstnud avaldades aruande, milles süüdistab tehisintellektil põhinevat vastusemootorit Perplexity veebisaitide indekseerimise jätkamises hoolimata takistustest omanike poolt paigutatud. Taristupakkuja sõnul oleks teenus robots.txt ignoreeriti ja mööda võrgublokeeringuid, et pääseda juurde keelatud sisule.

Maastikus, kus tehisintellekt neelab andmeid mudelite treenimiseks ja reaalajas reageerimiseks, tasakaal innovatsiooni ja veebiökosüsteemi reeglite austamise vahel läheb pingeliseksPoleemika sütitab uuesti arutelu teemal volitamata kraapimist ja tehnilised ja eetilised piirangud, millest peaksid kinni pidama need, kes loovad tooteid suurel hulgal veebipõhisel teabel põhinevalt.

Mida Cloudflare kajastab ja miks see on oluline

Tehisintellekti indekseerimine ja veebipoliitikad

Võrgu turvalisuse ja jõudluse ettevõte väidab, et sai klientide kaebused kelle saitidele omistati jätkuvalt Perplexityle ligipääs vaatamata keela see robots.txt-s ja rakendage reegleid WAF oma deklareeritud jälgijate blokeerimiseks. Pärast uurimist väidab Cloudflare, et on tuvastanud mustri varjatud jälgimine ei ole veebisaidi omanike eelistustega kooskõlas.

Tarnija väidab, et on seda käitumist täheldanud kümneid tuhandeid domeene ja miljoneid päringuid iga päev, mis tema arvates näitab pigem süstemaatilisi kui juhuslikke praktikaid. Selle tulemusena on eemaldanud Perplexity oma kontrollitud robotite nimekirjast ja on aktiveerinud heuristikad ja hallanud reegleid blokeeri see jälgimine vaikimisi.

blokeeri veebilehti Google Chrome'ist
Seotud artikkel:
Kuidas blokeerida veebisaite Google Chrome'is ilma väliste rakendusteta

Kuidas oleks Perplexity takistustest üle saanud

robotid txt

Cloudflare'i andmetel, kui teie deklareeritud jälitajad (nagu on tuvastatud Perplexity kasutajaagendi nimede järgi) krahhi korral läks süsteem järgmisele brauseri kehastamine tavaline, esitledes end justkui oleks Chrome macOS-is varjata oma identiteeti ja avastamist vältida.

Eksklusiivne sisu – klõpsake siin  Kuidas siseneda küllastunud lehele?

Lisaks pärinesid ligipääsud järgmistelt poolt: avaldamata IP-vahemikud hämmelduse ja sageli pööratud, mis oleks filtreerimise keeruliseks teinud. Cloudflare väidab samuti, et on näinud muutusi ASN (autonoomsed süsteemid) päringute päritolu, veel üks märk blokeerimisest kõrvalehoidumine võrku.

Uuringus mainitakse, et täheldatud käitumine ei austaks mustrit headest roomajatest, keda on kirjeldatud RFC 9309 ja oma „kinnitatud robotite” poliitikas: identiteedi läbipaistvus (agent, IP-aadressid ja kontakt), liikluse rahustamine, selge eesmärk ja austa robots.txt-d juba saidiomanike seatud piirid.

Cloudflare väidab, et on suutnud "Jäta jälg maha" sellele liiklusele järgmiste kombinatsioonide kaudu võrgusignaalid ja masinõpe, lisades oma hallatavatele reeglitele signatuure, mis tuvastavad ja blokeerivad selle tegevuse isegi klientide jaoks tasuta plaan.

veebijäätmete kraapimise tööriistad-2
Seotud artikkel:
Parimad veebikraapimisriistad aastal 2025

Peibutusdomeenidega testimine ja tulemused

Oma kahtluste kinnitamiseks lõi meeskond uued ja avaldamata domeenid (pole indekseeritud ega avalikult lingitud) ja rakendasin neile poliitikat robots.txt täielik keeld, samuti konkreetsed reeglid Perplexity bottide keelustamiseks. Pärast nende saitide tehisintellektiga konsulteerimist väidab Cloudflare, et sain vastuseid koos hostitud sisu üksikasjadega, mis – kui see on õige – viitaks ligipääs hoolimata takistustest.

Eksklusiivne sisu – klõpsake siin  Kuidas saan programmi AVG AntiVirus Free abil skannida?

Kui blokk oli efektiivne, täheldas Cloudflare, et Perplexity tehisintellekt pöördus alternatiivsete allikate poole vastuse loomiseks, aga vähem täpne ja ilma algse materjali eripäradeta, mis peegeldab seda, et piirang oli toiminud.

Perplexity ametlik vastus

Segadus ja robots.txt

Segadus omalt poolt lükkab süüdistused tagasi varjatud jälgimisest ja väidetest, et Cloudflare on valesti tõlgendatud osa analüüsitud tegevusest. Ettevõtte pressiesindajad on aruannet kirjeldanud kui "kommertstükk" ja nad väidavad, et on olemas mingeid tõendeid nad ei testiks päris ligipääse või isegi vastavad teiste inimeste robotid.

Samuti on idufirma jaganud oma seisukohta publikatsioonid X-is, kus ta seab kahtluse alla võimekuse tuvastussüsteemid eristama legitiimsed tehisintellekti assistendid, kolmandate osapoolte jälgijad ja pahatahtlik liiklus. Lisaks väidab see, et a agent otsib õigeaegset teavet päringule vastama see ei tööta samamoodi kui traditsiooniline roomik, mis veebis massiliselt ringi roomab.

Meetmed, head tavad ja teiste osalejate roll

Oma strateegia osana on Cloudflare'il eemaldati Perplexityst usaldusväärsete robotite registrist ja on lisanud blokeerimise reeglid väidetava varjatud jälgimise. Ettevõte soovitab administraatoritel aktiveerida botivastased poliitikad, Rakenda väljakutseid kui täielikku blokeerimist ei soovita ja kasutage selle vastu spetsiifilisi hallatavaid reegleid AI kraapimine.

Eksklusiivne sisu – klõpsake siin  Kuidas saab saatjaid MailMate'is blokeerida?

Oma argumendis vastandab Cloudflare juhtumit vastavuse näited parimate tavade kohta, viidates osalejatele, kes austa robots.txt-d, dokumenteerivad oma agente ja võtavad kasutusele uusi standardeid, näiteks Veebiroboti autentimineVõrdlustestides väidetakse, et teised robotid nad peatusid võrgukeelu või -blokeeringu korral ilma kamuflaažiga korduskatseteta.

Blokeeritud veebisaitide loend Hispaanias
Seotud artikkel:
Valitsus avaldab Hispaanias blokeeritud veebisaitide ametliku nimekirja: kuidas süsteem töötab ja millised domeenid seal kuvatakse.

Konflikt, mis tähistab ökosüsteemi kulgu

Perplexity indekseerib veebisaite

Tarnija eeldab, et pidev evolutsioon bot-operaatorite taktikast ja nende ohjeldamiseks kasutatavatest kaitsemeetmetest. Paralleelselt osaleb ta töös ekspertide ja organisatsioonidega, näiteks IETF turgutada robots.txt laiendused ja mõõdetavad põhimõtted, millest heasoovlikud jälgijad peaksid kinni pidama.

Lisaks konkreetsele pulsile esitab juhtum lauale ka usalduskriis sisuloojate, platvormide ja tehisintellekti ettevõtete vahel: kes saab millele ligi pääseda, millistel tingimustel ja kuidas tee see läbipaistvaks ilma ärimudeleid lõhkumata või innovatsiooni aeglustamata. Kõik viitab sellele vestlusele jääb avatuks samal ajal kui tehisintellekti agendid saavutavad tähtsuse ja veeb kohandab oma kooseksisteerimise reegleid.

See episood jätab selge sõnumi: Tehisintellekti jälgimine on kontrolli all, kusjuures Cloudflare mõistab hukka Perplexityle ja idufirmale omistatud kamuflaažitaktika eitades seda kindlalt; keskel on saidiomanikel juurdepääs uusi vahendeid juurdepääsu kontrollimiseks ja komplekt head tavad ehitusjärgus, mis hakkab lähikuudel mänguväljakut tähistama.

Jäta kommentaar