- Cloudflare süüdistab Perplexityt robots.txt faili möödahiilimises ja selle indekseerimise varjamises deklareerimata kasutajaagentide ja IP-aadressidega.
- Ettevõte väidab, et on täheldanud ASN-i muudatusi ja miljoneid päringuid iga päev kümnetes tuhandetes domeenides.
- Perplexity eitab varjatud praktikaid, seab kahtluse alla metoodika ja väidab, et nende tehisintellekt töötab teistmoodi kui traditsiooniline roomik.
- Cloudflare eemaldab Perplexity kontrollitud bottide nimekirjast ja lubab reeglitel vaikimisi tehisintellekti jälgimist blokeerida.
Cloudflare on häirekella tõstnud avaldades aruande, milles süüdistab tehisintellektil põhinevat vastusemootorit Perplexity veebisaitide indekseerimise jätkamises hoolimata takistustest omanike poolt paigutatud. Taristupakkuja sõnul oleks teenus robots.txt ignoreeriti ja mööda võrgublokeeringuid, et pääseda juurde keelatud sisule.
Maastikus, kus tehisintellekt neelab andmeid mudelite treenimiseks ja reaalajas reageerimiseks, tasakaal innovatsiooni ja veebiökosüsteemi reeglite austamise vahel läheb pingeliseksPoleemika sütitab uuesti arutelu teemal volitamata kraapimist ja tehnilised ja eetilised piirangud, millest peaksid kinni pidama need, kes loovad tooteid suurel hulgal veebipõhisel teabel põhinevalt.
Mida Cloudflare kajastab ja miks see on oluline
Võrgu turvalisuse ja jõudluse ettevõte väidab, et sai klientide kaebused kelle saitidele omistati jätkuvalt Perplexityle ligipääs vaatamata keela see robots.txt-s ja rakendage reegleid WAF oma deklareeritud jälgijate blokeerimiseks. Pärast uurimist väidab Cloudflare, et on tuvastanud mustri varjatud jälgimine ei ole veebisaidi omanike eelistustega kooskõlas.
Tarnija väidab, et on seda käitumist täheldanud kümneid tuhandeid domeene ja miljoneid päringuid iga päev, mis tema arvates näitab pigem süstemaatilisi kui juhuslikke praktikaid. Selle tulemusena on eemaldanud Perplexity oma kontrollitud robotite nimekirjast ja on aktiveerinud heuristikad ja hallanud reegleid blokeeri see jälgimine vaikimisi.
Kuidas oleks Perplexity takistustest üle saanud
Cloudflare'i andmetel, kui teie deklareeritud jälitajad (nagu on tuvastatud Perplexity kasutajaagendi nimede järgi) krahhi korral läks süsteem järgmisele brauseri kehastamine tavaline, esitledes end justkui oleks Chrome macOS-is varjata oma identiteeti ja avastamist vältida.
Lisaks pärinesid ligipääsud järgmistelt poolt: avaldamata IP-vahemikud hämmelduse ja sageli pööratud, mis oleks filtreerimise keeruliseks teinud. Cloudflare väidab samuti, et on näinud muutusi ASN (autonoomsed süsteemid) päringute päritolu, veel üks märk blokeerimisest kõrvalehoidumine võrku.
Uuringus mainitakse, et täheldatud käitumine ei austaks mustrit headest roomajatest, keda on kirjeldatud RFC 9309 ja oma „kinnitatud robotite” poliitikas: identiteedi läbipaistvus (agent, IP-aadressid ja kontakt), liikluse rahustamine, selge eesmärk ja austa robots.txt-d juba saidiomanike seatud piirid.
Cloudflare väidab, et on suutnud "Jäta jälg maha" sellele liiklusele järgmiste kombinatsioonide kaudu võrgusignaalid ja masinõpe, lisades oma hallatavatele reeglitele signatuure, mis tuvastavad ja blokeerivad selle tegevuse isegi klientide jaoks tasuta plaan.
Peibutusdomeenidega testimine ja tulemused
Oma kahtluste kinnitamiseks lõi meeskond uued ja avaldamata domeenid (pole indekseeritud ega avalikult lingitud) ja rakendasin neile poliitikat robots.txt täielik keeld, samuti konkreetsed reeglid Perplexity bottide keelustamiseks. Pärast nende saitide tehisintellektiga konsulteerimist väidab Cloudflare, et sain vastuseid koos hostitud sisu üksikasjadega, mis – kui see on õige – viitaks ligipääs hoolimata takistustest.
Kui blokk oli efektiivne, täheldas Cloudflare, et Perplexity tehisintellekt pöördus alternatiivsete allikate poole vastuse loomiseks, aga vähem täpne ja ilma algse materjali eripäradeta, mis peegeldab seda, et piirang oli toiminud.
Perplexity ametlik vastus
Segadus omalt poolt lükkab süüdistused tagasi varjatud jälgimisest ja väidetest, et Cloudflare on valesti tõlgendatud osa analüüsitud tegevusest. Ettevõtte pressiesindajad on aruannet kirjeldanud kui "kommertstükk" ja nad väidavad, et on olemas mingeid tõendeid nad ei testiks päris ligipääse või isegi vastavad teiste inimeste robotid.
Samuti on idufirma jaganud oma seisukohta publikatsioonid X-is, kus ta seab kahtluse alla võimekuse tuvastussüsteemid eristama legitiimsed tehisintellekti assistendid, kolmandate osapoolte jälgijad ja pahatahtlik liiklus. Lisaks väidab see, et a agent otsib õigeaegset teavet päringule vastama see ei tööta samamoodi kui traditsiooniline roomik, mis veebis massiliselt ringi roomab.
Meetmed, head tavad ja teiste osalejate roll
Oma strateegia osana on Cloudflare'il eemaldati Perplexityst usaldusväärsete robotite registrist ja on lisanud blokeerimise reeglid väidetava varjatud jälgimise. Ettevõte soovitab administraatoritel aktiveerida botivastased poliitikad, Rakenda väljakutseid kui täielikku blokeerimist ei soovita ja kasutage selle vastu spetsiifilisi hallatavaid reegleid AI kraapimine.
Oma argumendis vastandab Cloudflare juhtumit vastavuse näited parimate tavade kohta, viidates osalejatele, kes austa robots.txt-d, dokumenteerivad oma agente ja võtavad kasutusele uusi standardeid, näiteks Veebiroboti autentimineVõrdlustestides väidetakse, et teised robotid nad peatusid võrgukeelu või -blokeeringu korral ilma kamuflaažiga korduskatseteta.
Konflikt, mis tähistab ökosüsteemi kulgu
Tarnija eeldab, et pidev evolutsioon bot-operaatorite taktikast ja nende ohjeldamiseks kasutatavatest kaitsemeetmetest. Paralleelselt osaleb ta töös ekspertide ja organisatsioonidega, näiteks IETF turgutada robots.txt laiendused ja mõõdetavad põhimõtted, millest heasoovlikud jälgijad peaksid kinni pidama.
Lisaks konkreetsele pulsile esitab juhtum lauale ka usalduskriis sisuloojate, platvormide ja tehisintellekti ettevõtete vahel: kes saab millele ligi pääseda, millistel tingimustel ja kuidas tee see läbipaistvaks ilma ärimudeleid lõhkumata või innovatsiooni aeglustamata. Kõik viitab sellele vestlusele jääb avatuks samal ajal kui tehisintellekti agendid saavutavad tähtsuse ja veeb kohandab oma kooseksisteerimise reegleid.
See episood jätab selge sõnumi: Tehisintellekti jälgimine on kontrolli all, kusjuures Cloudflare mõistab hukka Perplexityle ja idufirmale omistatud kamuflaažitaktika eitades seda kindlalt; keskel on saidiomanikel juurdepääs uusi vahendeid juurdepääsu kontrollimiseks ja komplekt head tavad ehitusjärgus, mis hakkab lähikuudel mänguväljakut tähistama.
Olen tehnoloogiahuviline, kes on muutnud oma "nohikese" huvidest elukutse. Olen veetnud üle 10 aasta oma elust tipptehnoloogiat kasutades ja puhtast uudishimust igasuguste programmide kallal nokitsenud. Nüüd olen spetsialiseerunud arvutitehnoloogiale ja videomängudele. Seda seetõttu, et rohkem kui 5 aastat olen kirjutanud erinevatele tehnoloogia ja videomängude veebisaitidele, luues artikleid, mille eesmärk on anda teile vajalikku teavet kõigile arusaadavas keeles.
Kui teil on küsimusi, siis minu teadmised ulatuvad kõigest, mis on seotud nii Windowsi operatsioonisüsteemiga kui ka Androidiga mobiiltelefonidele. Ja ma olen pühendunud teile, olen alati nõus kulutama paar minutit ja aitama teil lahendada kõik küsimused, mis teil selles Interneti-maailmas tekkida võivad.