Perplexity, en el punto de mira de Cloudflare por rastrear webs con bloqueos

Última actualización: 08/08/2025

  • Cloudflare acusa a Perplexity de eludir robots.txt y camuflar su rastreo con agentes de usuario e IP no declaradas.
  • La compañía asegura haber observado cambios de ASN y millones de peticiones diarias en decenas de miles de dominios.
  • Perplexity niega las prácticas encubiertas, cuestiona la metodología y defiende que su IA funciona de forma distinta a un crawler clásico.
  • Cloudflare deslista a Perplexity como bot verificado y activa reglas para bloquear el rastreo de IA por defecto.
Cloudflare denuncia a Perplexity

Cloudflare ha encendido las alarmas al publicar un informe en el que acusa al motor de respuestas por IA Perplexity de seguir rastreando webs pese a las barreras colocadas por sus propietarios. Según el proveedor de infraestructura, el servicio habría ignorado robots.txt y sorteo bloqueos de red para acceder a contenidos vetados.

En un panorama donde la IA devora datos para entrenar modelos y responder en tiempo real, el equilibrio entre innovación y respeto a las normas del ecosistema web se está tensando. La controversia reaviva el debate sobre el scraping no consentido y los límites técnicos y éticos que deberían cumplir quienes construyen productos basados en grandes cantidades de información online.

Qué denuncia Cloudflare y por qué importa

Rastreo de IA y directivas web

La empresa de seguridad y rendimiento en la red afirma que recibió quejas de clientes cuyos sitios seguían recibiendo accesos atribuidos a Perplexity pese a prohibirlo en robots.txt y aplicar reglas del WAF para bloquear a sus rastreadores declarados. Tras investigar, Cloudflare sostiene haber detectado un patrón de rastreo encubierto incompatible con las preferencias de los dueños de las webs.

El proveedor asegura que observó este comportamiento en decenas de miles de dominios y con millones de solicitudes diarias, un volumen que, a su juicio, evidencia prácticas sistemáticas y no incidentales. Como consecuencia, ha sacado a Perplexity de su lista de bots verificados y ha activado heurísticas y reglas gestionadas para bloquear este rastreo de manera predeterminada.

bloquear páginas web desde Google Chrome
Artículo relacionado:
Cómo bloquear páginas web desde Google Chrome sin apps externas

Cómo habría sorteado Perplexity las barreras

robots txt

Según Cloudflare, cuando sus rastreadoras declaradas (como las identificadas por nombres de agente de usuario de Perplexity) encontraban un bloqueo, el sistema pasaba a hacerse pasar por un navegador común, presentándose como si fuese Chrome en macOS para camuflar su identidad y evitar la detección.

Contenido exclusivo - Clic Aquí  ¿Por qué no funciona Bizum?

Además, los accesos procedían de rangos de IP no publicados por Perplexity y rotaban con frecuencia, lo que habría dificultado el filtrado. Cloudflare también afirma haber visto cambios en los ASN (sistemas autónomos) origen de las peticiones, otra señal de evasión de bloqueos de red.

La investigación menciona que el comportamiento observado no respetaría la pauta de los buenos crawlers descrita en RFC 9309 y en su política de “bots verificados”: transparencia de identidad (agente, IPs y contacto), moderación en el tráfico, un objetivo claro y respeto a robots.txt y a los límites fijados por los propietarios de sitios.

Cloudflare dice haber podido “poner huella” a este tráfico mediante una combinación de señales de red y aprendizaje automático, añadiendo firmas a sus reglas gestionadas que identifican y bloquean esta actividad, incluso para clientes del plan gratuito.

herramientas web scrapping-2
Artículo relacionado:
Mejores herramientas para hacer web scraping en 2025

Pruebas con dominios señuelo y resultados

Para confirmar sus sospechas, el equipo creó dominios nuevos e inéditos (no indexados ni vinculados públicamente) y les aplicó una política de prohibición total en robots.txt, además de reglas específicas para vetar a los bots de Perplexity. Tras consultar a la IA por esos sitios, Cloudflare asegura que obtuvo respuestas con detalles sobre el contenido alojado, algo que —de ser correcto— indicaría acceso pese a las barreras.

Contenido exclusivo - Clic Aquí  ¿Cómo configurar Zoom Webinar con PayPal en Lifesize?

Cuando el bloqueo resultaba efectivo, Cloudflare observó que la IA de Perplexity recurría a fuentes alternativas para construir una respuesta, pero menos precisa y sin las particularidades del material original, reflejando que la restricción había funcionado.

La respuesta oficial de Perplexity

Perplexity y robots.txt

Perplexity, por su parte, rechaza las acusaciones de rastreo encubierto y sostiene que Cloudflare ha malinterpretado parte de la actividad analizada. Portavoces de la compañía han calificado el informe como una “pieza comercial” y aseguran que algunas evidencias no probarían accesos reales o incluso corresponderían a bots ajenos.

La startup también ha compartido su postura en publicaciones en X, donde cuestiona la capacidad de los sistemas de detección para diferenciar entre asistentes de IA legítimos, rastreadores terceros y tráfico malicioso. Además, defiende que un agente que busca información puntual para responder a una consulta no funciona igual que un crawler tradicional que recorre la web de forma masiva.

Medidas, buenas prácticas y el papel de otros actores

Como parte de su estrategia, Cloudflare ha deslistado a Perplexity de su registro de bots confiables y ha añadido reglas para bloquear su supuesto rastreo oculto. La compañía recomienda a los administradores activar políticas anti-bots, aplicar desafíos cuando no se desee un bloqueo total y utilizar reglas gestionadas específicas contra el scraping de IA.

Contenido exclusivo - Clic Aquí  ¿Cómo proteger una presentación de Google Slides?

En su argumentario, Cloudflare contrasta el caso con ejemplos de cumplimiento de mejores prácticas, citando a actores que respetan robots.txt, documentan sus agentes y adoptan estándares emergentes como Web Bot Auth. En pruebas comparativas, afirma que otros bots se detuvieron al topar con la prohibición o un bloqueo de red, sin reintentos camuflados.

Listado de Webs Bloqueadas en España
Artículo relacionado:
El Gobierno publica el listado oficial de webs bloqueadas en España: así funciona el sistema y qué dominios aparecen

Un conflicto que marca el rumbo del ecosistema

Perplexity rastrea webs

El proveedor anticipa una evolución constante de las tácticas de los operadores de bots y de las defensas que se emplean para contenerlos. En paralelo, participa en trabajos con expertos y organismos como la IETF para impulsar extensiones de robots.txt y principios medibles que los rastreadores bienintencionados deberían cumplir.

Más allá del pulso puntual, el caso pone sobre la mesa la crisis de confianza entre creadores de contenido, plataformas y empresas de IA: quién puede acceder a qué, en qué condiciones, y cómo hacerlo transparente sin romper modelos de negocio ni frenar la innovación. Todo apunta a que esta conversación seguirá abierta mientras los agentes de IA ganan protagonismo y la web ajusta sus reglas de convivencia.

Este episodio deja un mensaje claro: el rastreo de IA está bajo escrutinio, con Cloudflare denunciando tácticas de camuflaje atribuidas a Perplexity y la startup negándolo con firmeza; en medio, los propietarios de sitios disponen de nuevas herramientas para controlar el acceso y un conjunto de buenas prácticas en construcción que marcarán el terreno de juego en los próximos meses.

Deja un comentario