- Cloudflare acusa a Perplexity de eludir robots.txt y camuflar su rastreo con agentes de usuario e IP no declaradas.
- La compañía asegura haber observado cambios de ASN y millones de peticiones diarias en decenas de miles de dominios.
- Perplexity niega las prácticas encubiertas, cuestiona la metodología y defiende que su IA funciona de forma distinta a un crawler clásico.
- Cloudflare deslista a Perplexity como bot verificado y activa reglas para bloquear el rastreo de IA por defecto.
Cloudflare ha encendido las alarmas al publicar un informe en el que acusa al motor de respuestas por IA Perplexity de seguir rastreando webs pese a las barreras colocadas por sus propietarios. Según el proveedor de infraestructura, el servicio habría ignorado robots.txt y sorteo bloqueos de red para acceder a contenidos vetados.
En un panorama donde la IA devora datos para entrenar modelos y responder en tiempo real, el equilibrio entre innovación y respeto a las normas del ecosistema web se está tensando. La controversia reaviva el debate sobre el scraping no consentido y los límites técnicos y éticos que deberían cumplir quienes construyen productos basados en grandes cantidades de información online.
Qué denuncia Cloudflare y por qué importa
La empresa de seguridad y rendimiento en la red afirma que recibió quejas de clientes cuyos sitios seguían recibiendo accesos atribuidos a Perplexity pese a prohibirlo en robots.txt y aplicar reglas del WAF para bloquear a sus rastreadores declarados. Tras investigar, Cloudflare sostiene haber detectado un patrón de rastreo encubierto incompatible con las preferencias de los dueños de las webs.
El proveedor asegura que observó este comportamiento en decenas de miles de dominios y con millones de solicitudes diarias, un volumen que, a su juicio, evidencia prácticas sistemáticas y no incidentales. Como consecuencia, ha sacado a Perplexity de su lista de bots verificados y ha activado heurísticas y reglas gestionadas para bloquear este rastreo de manera predeterminada.
Cómo habría sorteado Perplexity las barreras
Según Cloudflare, cuando sus rastreadoras declaradas (como las identificadas por nombres de agente de usuario de Perplexity) encontraban un bloqueo, el sistema pasaba a hacerse pasar por un navegador común, presentándose como si fuese Chrome en macOS para camuflar su identidad y evitar la detección.
Además, los accesos procedían de rangos de IP no publicados por Perplexity y rotaban con frecuencia, lo que habría dificultado el filtrado. Cloudflare también afirma haber visto cambios en los ASN (sistemas autónomos) origen de las peticiones, otra señal de evasión de bloqueos de red.
La investigación menciona que el comportamiento observado no respetaría la pauta de los buenos crawlers descrita en RFC 9309 y en su política de “bots verificados”: transparencia de identidad (agente, IPs y contacto), moderación en el tráfico, un objetivo claro y respeto a robots.txt y a los límites fijados por los propietarios de sitios.
Cloudflare dice haber podido “poner huella” a este tráfico mediante una combinación de señales de red y aprendizaje automático, añadiendo firmas a sus reglas gestionadas que identifican y bloquean esta actividad, incluso para clientes del plan gratuito.
Pruebas con dominios señuelo y resultados
Para confirmar sus sospechas, el equipo creó dominios nuevos e inéditos (no indexados ni vinculados públicamente) y les aplicó una política de prohibición total en robots.txt, además de reglas específicas para vetar a los bots de Perplexity. Tras consultar a la IA por esos sitios, Cloudflare asegura que obtuvo respuestas con detalles sobre el contenido alojado, algo que —de ser correcto— indicaría acceso pese a las barreras.
Cuando el bloqueo resultaba efectivo, Cloudflare observó que la IA de Perplexity recurría a fuentes alternativas para construir una respuesta, pero menos precisa y sin las particularidades del material original, reflejando que la restricción había funcionado.
La respuesta oficial de Perplexity
Perplexity, por su parte, rechaza las acusaciones de rastreo encubierto y sostiene que Cloudflare ha malinterpretado parte de la actividad analizada. Portavoces de la compañía han calificado el informe como una “pieza comercial” y aseguran que algunas evidencias no probarían accesos reales o incluso corresponderían a bots ajenos.
La startup también ha compartido su postura en publicaciones en X, donde cuestiona la capacidad de los sistemas de detección para diferenciar entre asistentes de IA legítimos, rastreadores terceros y tráfico malicioso. Además, defiende que un agente que busca información puntual para responder a una consulta no funciona igual que un crawler tradicional que recorre la web de forma masiva.
Medidas, buenas prácticas y el papel de otros actores
Como parte de su estrategia, Cloudflare ha deslistado a Perplexity de su registro de bots confiables y ha añadido reglas para bloquear su supuesto rastreo oculto. La compañía recomienda a los administradores activar políticas anti-bots, aplicar desafíos cuando no se desee un bloqueo total y utilizar reglas gestionadas específicas contra el scraping de IA.
En su argumentario, Cloudflare contrasta el caso con ejemplos de cumplimiento de mejores prácticas, citando a actores que respetan robots.txt, documentan sus agentes y adoptan estándares emergentes como Web Bot Auth. En pruebas comparativas, afirma que otros bots se detuvieron al topar con la prohibición o un bloqueo de red, sin reintentos camuflados.
Un conflicto que marca el rumbo del ecosistema
El proveedor anticipa una evolución constante de las tácticas de los operadores de bots y de las defensas que se emplean para contenerlos. En paralelo, participa en trabajos con expertos y organismos como la IETF para impulsar extensiones de robots.txt y principios medibles que los rastreadores bienintencionados deberían cumplir.
Más allá del pulso puntual, el caso pone sobre la mesa la crisis de confianza entre creadores de contenido, plataformas y empresas de IA: quién puede acceder a qué, en qué condiciones, y cómo hacerlo transparente sin romper modelos de negocio ni frenar la innovación. Todo apunta a que esta conversación seguirá abierta mientras los agentes de IA ganan protagonismo y la web ajusta sus reglas de convivencia.
Este episodio deja un mensaje claro: el rastreo de IA está bajo escrutinio, con Cloudflare denunciando tácticas de camuflaje atribuidas a Perplexity y la startup negándolo con firmeza; en medio, los propietarios de sitios disponen de nuevas herramientas para controlar el acceso y un conjunto de buenas prácticas en construcción que marcarán el terreno de juego en los próximos meses.
Soy un apasionado de la tecnología que ha convertido sus intereses «frikis» en profesión. Llevo más de 10 años de mi vida utilizando tecnología de vanguardia y trasteando todo tipo de programas por pura curiosidad. Ahora me he especializado en tecnología de ordenador y videojuegos. Esto es por que desde hace más de 5 años que trabajo redactando para varias webs en materia de tecnología y videojuegos, creando artículos que buscan darte la información que necesitas con un lenguaje entendible por todos.
Si tienes cualquier pregunta, mis conocimientos van desde todo lo relacionado con el sistema operativo Windows así como Android para móviles. Y es que mi compromiso es contigo, siempre estoy dispuesto a dedicarte unos minutos y ayudarte a resolver cualquier duda que tengas en este mundo de internet.