Perplexity, al punt de mira de Cloudflare per rastrejar webs amb bloquejos

Darrera actualització: 08/08/2025

  • Cloudflare acusa Perplexity d'eludir robots.txt i camuflar-ne el rastreig amb agents d'usuari i IP no declarades.
  • La companyia assegura haver observat canvis d'ASN i milions de peticions diàries a desenes de milers de dominis.
  • Perplexity nega les pràctiques encobertes, qüestiona la metodologia i defensa que la seva IA funciona de manera diferent d'un crawler clàssic.
  • Cloudflare llista Perplexity com a bot verificat i activa regles per bloquejar el rastreig d'IA per defecte.
Cloudflare denuncia a Perplexity

Cloudflare ha encès les alarmes en publicar un informe en què acusa el motor de respostes per IA Perplexity de seguir rastrejant webs malgrat les barreres col·locades pels seus propietaris. Segons el proveïdor d'infraestructura, el servei hi hauria ignorat robots.txt i sorteig bloquejos de xarxa per accedir a continguts vetats.

En un panorama on la IA devora dades per entrenar models i respondre en temps real, el equilibri entre innovació i respecte a les normes de l'ecosistema web s'està tensant. La controvèrsia revifa el debat sobre el scraping no consentit i els límits tècnics i ètics que haurien de complir els qui construeixen productes basats en grans quantitats d'informació en línia.

Quina denúncia Cloudflare i per què importa

Rastreig d'IA i directives web

L'empresa de seguretat i rendiment a la xarxa afirma que va rebre queixes de clients els llocs dels quals seguien rebent accessos atribuïts a Perplexity malgrat prohibir-ho a robots.txt i aplicar regles del WAF per bloquejar els seus rastrejadors declarats. Després d'investigar, Cloudflare sosté haver detectat un patró de rastreig encobert incompatible amb les preferències dels propietaris de les webs.

El proveïdor assegura que va observar aquest comportament a desenes de milers de dominis i amb milions de sol·licituds diàries, un volum que, al seu parer, evidencia pràctiques sistemàtiques i no incidentals. Com a conseqüència, ha tret Perplexity de la llista de bots verificats i ha activat heurístiques i regles gestionades per bloquejar aquest rastreig per defecte.

bloquejar pàgines web des de Google Chrome
Article relacionat:
Com bloquejar pàgines web des de Google Chrome sense apps externes

Com hauria sortejat Perplexity les barreres

robots txt

Segons Cloudflare, quan els seus rastrejadores declarades (com les identificades per noms d'agent d'usuari de Perplexity) trobaven un bloqueig, el sistema passava a fer-se passar per un navegador comú, presentant-se com si fos Chrome a macOS per camuflar la seva identitat i evitar la detecció.

Contingut exclusiu - Clic Aquí  Linkedin Com crear un perfil?

A més, els accessos procedien de rangs d'IP no publicats per Perplexity i rotaven amb freqüència, el que hauria dificultat el filtratge. Cloudflare també afirma haver vist canvis en els ASN (sistemes autònoms) origen de les peticions, un altre senyal de evasió de bloquejos de xarxa.

La investigació esmenta que el comportament observat no respectaria la pauta dels bons crawlers descrita a RFC 9309 i en la seva política de “bots verificats”: transparència d'identitat (agent, IPs i contacte), moderació en el trànsit, un objectiu clar i respecte a robots.txt i als límits fixats pels propietaris de llocs.

Cloudflare diu haver pogut “posar empremta” a aquest trànsit mitjançant una combinació de senyals de xarxa i aprenentatge automàtic, afegint signatures a les seves regles gestionades que identifiquen i bloquegen aquesta activitat, fins i tot per a clients del pla gratuït.

eines web scrapping-2
Article relacionat:
Millors eines per fer web scraping el 2025

Proves amb dominis esquer i resultats

Per confirmar les sospites, l'equip va crear dominis nous i inèdits (no indexats ni vinculats públicament) i els va aplicar una política de prohibició total a robots.txt, a més de regles específiques per vetar els bots de Perplexity. Després de consultar la IA per aquests llocs, Cloudflare assegura que va obtenir respostes amb detalls sobre el contingut allotjat, cosa que —si fos correcta— indicaria accés malgrat les barreres.

Contingut exclusiu - Clic Aquí  Com es fa servir Kaspersky Anti-Virus?

Quan el bloqueig resultava efectiu, Cloudflare va observar que la IA de Perplexity recorria a fonts alternatives per construir una resposta, però menys precisa i sense les particularitats del material original, reflectint que la restricció havia funcionat.

La resposta oficial de Perplexity

Perplexity i robots.txt

Perplexity, per la seva banda, rebutja les acusacions de rastreig encobert i sosté que Cloudflare ha malinterpretat part de lactivitat analitzada. Portaveus de la companyia han qualificat l'informe com una “peça comercial” i asseguren que algunes evidències no provarien accessos reals o fins i tot correspondrien a bots aliens.

La startup també ha compartit la seva postura a publicacions a X, on qüestiona la capacitat dels sistemes de detecció per diferenciar entre assistents d'IA legítims, rastrejadors tercers i trànsit maliciós. A més, defensa que un agent que cerca informació puntual per respondre a una consulta no funciona igual que un crawler tradicional que recorre la web de manera massiva.

Mesures, bones pràctiques i paper d'altres actors

Com a part de la seva estratègia, Cloudflare ha llistat a Perplexity del vostre registre de bots fiables i ha afegit regles per bloquejar el seu suposat rastreig ocult. La companyia recomana als administradors activar polítiques antibots, aplicar desafiaments quan no es vulgui un bloqueig total i utilitzar regles gestionades específiques contra el scraping d'IA.

Contingut exclusiu - Clic Aquí  Com configurar l'escaneig web a McAfee AntiVirus Plus?

En el seu argumentari, Cloudflare contrasta el cas amb exemples de compliment de millors pràctiques, citant actors que respecten robots.txt, documenten els seus agents i adopten estàndards emergents com Web Bot Auth. En proves comparatives, afirma que altres bots es van aturar en topar amb la prohibició o un bloqueig de xarxa, sense reintents camuflats.

Llistat de Webs Bloquejades a Espanya
Article relacionat:
El Govern publica el llistat oficial de webs bloquejats a Espanya: així funciona el sistema i quins dominis apareixen

Un conflicte que marca el rumb de l´ecosistema

Perplexity rastreja webs

El proveïdor anticipa una evolució constant de les tàctiques dels operadors de bots i de les defenses que es fan servir per contenir-los. En paral·lel, participa en treballs amb experts i organismes com la IETF per impulsar extensions de robots.txt i principis mesurables que els rastrejadors benintencionats haurien de complir.

Més enllà del pols puntual, el cas posa sobre la taula la crisi de confiança entre creadors de contingut, plataformes i empreses d'IA: qui pot accedir a què, en quines condicions, i com fer-ho transparent sense trencar models de negoci ni frenar la innovació. Tot apunta que aquesta conversa seguirà oberta mentre els agents d'IA guanyen protagonisme i la web n'ajusta les regles de convivència.

Aquest episodi deixa un missatge clar: el rastreig d'IA està sota escrutini, amb Cloudflare denunciant tàctiques de camuflatge atribuïdes a Perplexity i la startup negant-ho amb fermesa; al mig, els propietaris de llocs disposen de noves eines per controlar l'accés i un conjunt de bones pràctiques en construcció que marcaran el terreny de joc en els propers mesos.