- A Cloudflare acusa a Perplexity de ignorar o robots.txt e mascarar seu rastreamento com agentes de usuários e endereços IP não declarados.
- A empresa afirma ter observado mudanças de ASN e milhões de solicitações diariamente em dezenas de milhares de domínios.
- Perplexity nega práticas secretas, questiona a metodologia e argumenta que sua IA funciona de forma diferente de um rastreador tradicional.
- A Cloudflare remove o Perplexity da lista de bots verificados e habilita regras para bloquear o rastreamento de IA por padrão.
A Cloudflare deu o alarme publicando um relatório em que acusa o mecanismo de resposta Perplexity, alimentado por IA, de continuar a rastrear sites apesar das barreiras colocados pelos seus proprietários. Segundo o fornecedor de infraestrutura, o serviço teria robots.txt ignorado e ignorar bloqueios de rede para acessar conteúdo banido.
Numa paisagem onde a IA devora dados para treinar modelos e responder em tempo real, a equilíbrio entre inovação e respeito às regras do ecossistema web está ficando tensoA polémica reacende o debate sobre a raspagem não autorizada e os limites técnicos e éticos que aqueles que criam produtos baseados em grandes quantidades de informações online devem cumprir.
O que a Cloudflare está relatando e por que isso é importante

A empresa de segurança e desempenho de rede diz que recebeu Reclamações do cliente cujos sites continuaram a receber acesso atribuído à Perplexidade, apesar proibir em robots.txt e aplicar as regras do WAF para bloquear seus rastreadores declarados. Após investigar, a Cloudflare afirma ter detectado um padrão de rastreamento secreto incompatível com as preferências dos proprietários de sites.
O fornecedor afirma ter observado esse comportamento em dezenas de milhares de domínios e com milhões de solicitações diariamente, um volume que, em sua opinião, demonstra práticas sistemáticas e não incidentais. Como resultado, removeu o Perplexity de sua lista de bots verificados e ativou heurísticas e regras gerenciadas para bloquear este rastreamento por padrão.
Como a Perplexidade teria superado as barreiras

De acordo com a Cloudflare, quando seu rastreadores declarados (conforme identificado pelos nomes dos agentes de usuário do Perplexity) encontrou uma falha, o sistema iria para personificar um navegador comum, apresentando-se como se fosse Chrome no macOS para camuflar sua identidade e evitar detecção.
Além disso, os acessos vieram de intervalos de IP não publicados por Perplexidade e girado com frequência, o que teria dificultado a filtragem. A Cloudflare também afirma ter visto mudanças no ASN (sistemas autônomos) origem dos pedidos, outro sinal de evasão de bloco rede.
A pesquisa menciona que o comportamento observado não respeitaria o padrão dos bons rastreadores descritos em RFC 9309 e na sua política de “bots verificados”: transparência de identidade (agente, IPs e contacto), acalmar o tráfego, um objetivo claro e respeite o robots.txt já os limites definidos pelos proprietários do site.
A Cloudflare afirma que conseguiu “deixar uma marca” para este tráfego através de uma combinação de sinais de rede e aprendizado de máquina, adicionando assinaturas às suas regras gerenciadas que identificam e bloqueiam essa atividade, mesmo para clientes do plano livre.
Testes com domínios chamariz e resultados
Para confirmar suas suspeitas, a equipe criou domínios novos e não publicados (não indexados ou vinculados publicamente) e aplicou uma política a eles proibição total do robots.txt, bem como regras específicas para banir bots Perplexity. Após consultar a IA desses sites, a Cloudflare afirma que obteve respostas com detalhes sobre o conteúdo hospedado, algo que — se correto — indicaria acesso apesar das barreiras.
Quando o bloqueio foi efetivo, a Cloudflare observou que a IA da Perplexity recorreu a fontes alternativas para construir uma resposta, mas menos preciso e sem as particularidades do material original, refletindo que o a restrição funcionou.
Resposta oficial da Perplexity

A perplexidade, por sua vez, rejeita as acusações de rastreamento secreto e alegações de que a Cloudflare tem incompreendido parte da atividade analisada. Os porta-vozes da empresa descreveram o relatório como um “peça comercial” e eles afirmam que algumas evidências eles não testariam acessos reais ou mesmo corresponder a bots de outras pessoas.
A startup também compartilhou sua posição sobre publicações em X, onde questiona a capacidade do sistemas de detecção para diferenciar entre assistentes de IA legítimos, rastreadores de terceiros e tráfego malicioso. Além disso, argumenta que um agente que busca informações oportunas para responder a uma consulta não funciona da mesma forma do que um rastreador tradicional que rastreia a web em massa.
Medidas, boas práticas e o papel de outros intervenientes
Como parte de sua estratégia, a Cloudflare tem retirado da lista de Perplexidade do seu registro de bots confiáveis e adicionou regras para bloqueio seu suposto rastreamento oculto. A empresa recomenda que os administradores ativem políticas anti-bot, Aplicar desafios quando um bloqueio total não é desejado e usar regras gerenciadas específicas contra o Raspagem de IA.
Em seu argumento, a Cloudflare contrasta o caso com exemplos de conformidade de melhores práticas, citando atores que respeite o robots.txt, documentar seus agentes e adotar padrões emergentes como Autenticação de bot da WebEm testes comparativos, ele afirma que outros bots eles pararam ao encontrar uma proibição ou bloqueio de rede, sem tentativas camufladas.
Um conflito que marca o curso do ecossistema

O fornecedor prevê uma evolução constante das táticas dos operadores de bots e das defesas utilizadas para contê-los. Paralelamente, participa de trabalhos com especialistas e organizações como a IETF impulsionar extensões robots.txt e princípios mensuráveis que rastreadores bem-intencionados devem seguir.
Além do pulso específico, o caso coloca sobre a mesa o crise de confiança entre criadores de conteúdo, plataformas e empresas de IA: quem pode acessar o que, em que condições e como torná-lo transparente sem quebrar modelos de negócios ou desacelerar a inovação. Tudo aponta para essa conversa permanecerá aberto enquanto agentes de IA ganham destaque e a web ajusta suas regras de coexistência.
Este episódio deixa uma mensagem clara: O rastreamento de IA está sob escrutínio, com a Cloudflare denunciando táticas de camuflagem atribuídas à Perplexity e à startup negando firmemente; no meio, os proprietários do site têm acesso a novas ferramentas para controlar o acesso e um conjunto de boas práticas em construção que marcará o campo de jogo nos próximos meses.
Sou um entusiasta da tecnologia que transformou seus interesses “geek” em profissão. Passei mais de 10 anos da minha vida usando tecnologia de ponta e mexendo em todos os tipos de programas por pura curiosidade. Agora me especializei em informática e videogames. Isto porque há mais de 5 anos escrevo para diversos sites sobre tecnologia e videojogos, criando artigos que procuram dar-lhe a informação que necessita numa linguagem compreensível para todos.
Se você tiver alguma dúvida, meu conhecimento vai desde tudo relacionado ao sistema operacional Windows até Android para celulares. E meu compromisso é com você, estou sempre disposto a dedicar alguns minutos e te ajudar a resolver qualquer dúvida que você possa ter nesse mundo da internet.