Verwarring geteiken deur Cloudflare vir die opsporing van geblokkeerde webwerwe

Laaste opdatering: 08/08/2025

  • Cloudflare beskuldig Perplexity daarvan dat hulle robots.txt omseil en die kruiping daarvan met onverklaarde gebruikersagente en IP-adresse verberg.
  • Die maatskappy beweer dat hulle ASN-veranderinge en miljoene versoeke daagliks oor tienduisende domeine waargeneem het.
  • Perplexity ontken geheime praktyke, bevraagteken die metodologie en voer aan dat sy KI anders werk as 'n tradisionele kruiper.
  • Cloudflare verwyder Perplexity as 'n geverifieerde bot en stel reëls in staat om KI-opsporing by verstek te blokkeer.
Cloudflare dagvaar Perplexity

Cloudflare het alarm gemaak deur die publikasie van 'n verslag waarin beskuldig KI-aangedrewe antwoordenjin Perplexity daarvan dat hulle voortgaan om webwerwe te deursoek ten spyte van hindernisse. geplaas deur hul eienaars. Volgens die infrastruktuurverskaffer sou die diens hê robots.txt geïgnoreer en omseil netwerkblokkades om toegang tot verbode inhoud te verkry.

In 'n landskap waar KI data verslind om modelle op te lei en intyds te reageer, die balans tussen innovasie en respek vir die reëls van die web-ekosisteem raak gespanneDie kontroversie wakker die debat weer aan oor die ongemagtigde skraapwerk en die tegniese en etiese beperkings waaraan diegene wat produkte bou gebaseer op groot hoeveelhede aanlyn inligting, moet voldoen.

Wat Cloudflare rapporteer en hoekom dit saak maak

KI-kruiping en webbeleide

Die netwerksekuriteits- en prestasiemaatskappy sê dat hulle ontvang het kliënteklagtes wie se webwerwe steeds toegang ontvang het wat toegeskryf word aan Perplexity ten spyte van verban dit in robots.txt en pas die reëls van die WAF om hul verklaarde spoorsnyers te blokkeer. Na ondersoek beweer Cloudflare dat hulle 'n patroon van geheime opsporing onversoenbaar met die voorkeure van webwerf-eienaars.

Die verskaffer beweer dat hy hierdie gedrag waargeneem het in tienduisende domeine en miljoene versoeke daagliks, 'n bundel wat, na sy mening, sistematiese eerder as toevallige praktyke toon. Gevolglik, het Perplexity van sy lys van geverifieerde botte verwyder en het heuristiek geaktiveer en reëls bestuur vir blokkeer hierdie dophou by verstek.

blokkeer webblaaie van Google Chrome
Verwante artikel:
Hoe om webwerwe van Google Chrome te blokkeer sonder eksterne programme

Hoe Verwarring die hindernisse sou oorkom het

robots txt

Volgens Cloudflare, wanneer jou verklaarde spoorsnyers (soos geïdentifiseer deur Perplexity-gebruikersagentname) 'n ineenstorting teëgekom het, sou die stelsel na verpersoonlik 'n blaaier algemeen, wat homself voordoen asof dit Chrome op macOS om hul identiteit te kamoefleer en opsporing vermy.

Eksklusiewe inhoud - Klik hier  LinkedIn Hoe om 'n profiel te skep?

Daarbenewens het die toegang gekom van ongepubliseerde IP-reekse deur Verwarring en gereeld gedraai, wat filterwerk moeilik sou gemaak het. Cloudflare beweer ook dat hulle veranderinge in die gesien het ASN (outonome stelsels) oorsprong van die versoeke, nog 'n teken van blokontduiking netwerk.

Die navorsing noem dat die waargenome gedrag sou nie die patroon respekteer nie van die goeie kruipers wat beskryf word in RFC 9309 en in sy "geverifieerde botte"-beleid: identiteitsdeursigtigheid (agent, IP's en kontak), verkeerskalmering, 'n duidelike doelwit en respek robots.txt reeds die perke wat deur webwerf-eienaars gestel is.

Cloudflare sê dit was in staat om "laat 'n merk" aan hierdie verkeer deur 'n kombinasie van netwerkseine en masjienleer, en voeg handtekeninge by jou bestuurde reëls wat hierdie aktiwiteit identifiseer en blokkeer, selfs vir kliënte van die gratis plan.

webskrap gereedskap-2
Verwante artikel:
Beste webskrapgereedskap in 2025

Toetsing met lokmiddeldomeine en resultate

Om hul vermoedens te bevestig, het die span geskep nuwe en ongepubliseerde domeine (nie geïndekseer of publiek gekoppel nie) en 'n beleid daarop toegepas totale verbod op robots.txt, sowel as spesifieke reëls vir die verbod op Perplexity-botte. Nadat Cloudflare die KI vir daardie webwerwe geraadpleeg het, beweer hulle dat antwoorde gekry met besonderhede oor die gehuisveste inhoud, iets wat – indien korrek – sou aandui toegang ten spyte van hindernisse.

Eksklusiewe inhoud - Klik hier  Hoe gebruik ek Kaspersky Anti-Virus?

Toe die blok effektief was, het Cloudflare waargeneem dat Perplexity se KI het na alternatiewe bronne teruggegryp om 'n reaksie te bou, maar minder presies en sonder die besonderhede van die oorspronklike materiaal, wat weerspieël dat die beperking het gewerk.

Perplexity se amptelike reaksie

Verwarring en robots.txt

Verwarring, van sy kant, verwerp die beskuldigings van geheime opsporing en bewerings dat Cloudflare het verkeerd geïnterpreteer deel van die aktiwiteit wat geanaliseer is. Woordvoerders van die maatskappy het die verslag beskryf as 'n "kommersiële stuk" en hulle beweer dat daar sekere bewyse is hulle sou nie werklike toegangstoetse toets nie of selfs ooreenstem met ander mense se robotte.

Die opstart het ook sy standpunt gedeel oor publikasies in X, waar hy die kapasiteit van die bevraagteken opsporingstelsels om te onderskei tussen wettige KI-assistente, derdeparty-spoorsnyers en kwaadwillige verkeer. Verder voer dit aan dat 'n agent wat spesifieke inligting soek om op 'n navraag te reageer dit werk nie dieselfde nie as 'n tradisionele kruiper wat die web en masse kruip.

Maatreëls, goeie praktyke en die rol van ander akteurs

As deel van sy strategie het Cloudflare gedelys van Perplexity uit sy register van vertroude bots en het bygevoeg reëls vir blokkering sy beweerde verborge dophou. Die maatskappy beveel aan dat administrateurs aktiveer anti-botbeleide, Pas toe uitdagings wanneer 'n totale blok nie verlang word nie en spesifieke bestuurde reëls teen die gebruik KI-skraapwerk.

Eksklusiewe inhoud - Klik hier  Hoe om webskandering in McAfee AntiVirus Plus op te stel?

In sy argument kontrasteer Cloudflare die saak met voorbeelde van nakoming van beste praktyke, met verwysing na akteurs wat respek robots.txt, dokumenteer hul agente en neem opkomende standaarde aan soos Webbot-magtigingIn vergelykende toetse beweer dit dat ander bots hulle het gestop wanneer 'n netwerkverbod of -blokkering teëgekom word, sonder gekamoefleerde herproewe.

Lys van geblokkeerde webwerwe in Spanje
Verwante artikel:
Die regering publiseer die amptelike lys van geblokkeerde webwerwe in Spanje: hoe die stelsel werk en watter domeine verskyn.

'n Konflik wat die verloop van die ekosisteem aandui

Verwarring kruip webwerwe

Die verskaffer verwag 'n konstante evolusie van die taktiek van botoperateurs en die verdediging wat gebruik word om hulle te beperk. Parallel daaraan neem hy deel aan werk met kundiges en organisasies soos die IETF impuls te gee robots.txt-uitbreidings en meetbare beginsels waaraan goedbedoelende spoorsnyers moet voldoen.

Benewens die spesifieke pols, plaas die saak die krisis van vertroue tussen inhoudskeppers, platforms en KI-maatskappye: wie kan toegang tot wat, onder watter omstandighede, en hoe maak dit deursigtig sonder om sakemodelle te breek of innovasie te vertraag. Alles dui op hierdie gesprek sal oop bly terwyl KI-agente prominensie kry en die web sy reëls van naasbestaan aanpas.

Hierdie episode laat 'n duidelike boodskap: KI-opsporing word ondersoek, met Cloudflare wat kamoefleringstaktieke veroordeel wat aan Perplexity en die opstartonderneming toegeskryf word dit ferm ontken; in die middel het webwerf-eienaars toegang tot nuwe gereedskap om toegang te beheer en 'n stel goeie praktyk onder konstruksie wat die speelveld in die komende maande sal merk.