Perplexidade é alvo da Cloudflare para rastrear sites bloqueados

Última atualização: 08/08/2025

  • A Cloudflare acusa a Perplexity de ignorar o robots.txt e mascarar seu rastreamento com agentes de usuários e endereços IP não declarados.
  • A empresa afirma ter observado mudanças de ASN e milhões de solicitações diariamente em dezenas de milhares de domínios.
  • Perplexity nega práticas secretas, questiona a metodologia e argumenta que sua IA funciona de forma diferente de um rastreador tradicional.
  • A Cloudflare remove o Perplexity da lista de bots verificados e habilita regras para bloquear o rastreamento de IA por padrão.
Cloudflare processa Perplexity

A Cloudflare deu o alarme publicando um relatório em que acusa o mecanismo de resposta Perplexity, alimentado por IA, de continuar a rastrear sites apesar das barreiras colocados pelos seus proprietários. Segundo o fornecedor de infraestrutura, o serviço teria robots.txt ignorado e ignorar bloqueios de rede para acessar conteúdo banido.

Numa paisagem onde a IA devora dados para treinar modelos e responder em tempo real, a equilíbrio entre inovação e respeito às regras do ecossistema web está ficando tensoA polémica reacende o debate sobre a raspagem não autorizada e os limites técnicos e éticos que aqueles que criam produtos baseados em grandes quantidades de informações online devem cumprir.

O que a Cloudflare está relatando e por que isso é importante

Rastreamento de IA e políticas da Web

A empresa de segurança e desempenho de rede diz que recebeu Reclamações do cliente cujos sites continuaram a receber acesso atribuído à Perplexidade, apesar proibir em robots.txt e aplicar as regras do WAF para bloquear seus rastreadores declarados. Após investigar, a Cloudflare afirma ter detectado um padrão de rastreamento secreto incompatível com as preferências dos proprietários de sites.

O fornecedor afirma ter observado esse comportamento em dezenas de milhares de domínios e com milhões de solicitações diariamente, um volume que, em sua opinião, demonstra práticas sistemáticas e não incidentais. Como resultado, removeu o Perplexity de sua lista de bots verificados e ativou heurísticas e regras gerenciadas para bloquear este rastreamento por padrão.

bloquear páginas da web do Google Chrome
Artigo relacionado:
Como bloquear sites do Google Chrome sem aplicativos externos

Como a Perplexidade teria superado as barreiras

robôs txt

De acordo com a Cloudflare, quando seu rastreadores declarados (conforme identificado pelos nomes dos agentes de usuário do Perplexity) encontrou uma falha, o sistema iria para personificar um navegador comum, apresentando-se como se fosse Chrome no macOS para camuflar sua identidade e evitar detecção.

Conteúdo exclusivo - Clique aqui  Bitdefender Free Edition: antivírus poderoso para proteção total

Além disso, os acessos vieram de intervalos de IP não publicados por Perplexidade e girado com frequência, o que teria dificultado a filtragem. A Cloudflare também afirma ter visto mudanças no ASN (sistemas autônomos) origem dos pedidos, outro sinal de evasão de bloco rede.

A pesquisa menciona que o comportamento observado não respeitaria o padrão dos bons rastreadores descritos em RFC 9309 e na sua política de “bots verificados”: transparência de identidade (agente, IPs e contacto), acalmar o tráfego, um objetivo claro e respeite o robots.txt já os limites definidos pelos proprietários do site.

A Cloudflare afirma que conseguiu “deixar uma marca” para este tráfego através de uma combinação de sinais de rede e aprendizado de máquina, adicionando assinaturas às suas regras gerenciadas que identificam e bloqueiam essa atividade, mesmo para clientes do plano livre.

ferramentas de scraping da web-2
Artigo relacionado:
Melhores ferramentas de scraping da web em 2025

Testes com domínios chamariz e resultados

Para confirmar suas suspeitas, a equipe criou domínios novos e não publicados (não indexados ou vinculados publicamente) e aplicou uma política a eles proibição total do robots.txt, bem como regras específicas para banir bots Perplexity. Após consultar a IA desses sites, a Cloudflare afirma que obteve respostas com detalhes sobre o conteúdo hospedado, algo que — se correto — indicaria acesso apesar das barreiras.

Conteúdo exclusivo - Clique aqui  Como a biometria é usada na segurança?

Quando o bloqueio foi efetivo, a Cloudflare observou que a IA da Perplexity recorreu a fontes alternativas para construir uma resposta, mas menos preciso e sem as particularidades do material original, refletindo que o a restrição funcionou.

Resposta oficial da Perplexity

Perplexidade e robots.txt

A perplexidade, por sua vez, rejeita as acusações de rastreamento secreto e alegações de que a Cloudflare tem incompreendido parte da atividade analisada. Os porta-vozes da empresa descreveram o relatório como um “peça comercial” e eles afirmam que algumas evidências eles não testariam acessos reais ou mesmo corresponder a bots de outras pessoas.

A startup também compartilhou sua posição sobre publicações em X, onde questiona a capacidade do sistemas de detecção para diferenciar entre assistentes de IA legítimos, rastreadores de terceiros e tráfego malicioso. Além disso, argumenta que um agente que busca informações oportunas para responder a uma consulta não funciona da mesma forma do que um rastreador tradicional que rastreia a web em massa.

Medidas, boas práticas e o papel de outros intervenientes

Como parte de sua estratégia, a Cloudflare tem retirado da lista de Perplexidade do seu registro de bots confiáveis e adicionou regras para bloqueio seu suposto rastreamento oculto. A empresa recomenda que os administradores ativem políticas anti-bot, Aplicar desafios quando um bloqueio total não é desejado e usar regras gerenciadas específicas contra o Raspagem de IA.

Conteúdo exclusivo - Clique aqui  Como remover metadados de uma imagem no macOS: um guia completo

Em seu argumento, a Cloudflare contrasta o caso com exemplos de conformidade de melhores práticas, citando atores que respeite o robots.txt, documentar seus agentes e adotar padrões emergentes como Autenticação de bot da WebEm testes comparativos, ele afirma que outros bots eles pararam ao encontrar uma proibição ou bloqueio de rede, sem tentativas camufladas.

Lista de sites bloqueados na Espanha
Artigo relacionado:
O Governo publica a lista oficial de sites bloqueados na Espanha: como funciona o sistema e quais domínios aparecem.

Um conflito que marca o curso do ecossistema

Perplexidade rastreia sites

O fornecedor prevê uma evolução constante das táticas dos operadores de bots e das defesas utilizadas para contê-los. Paralelamente, participa de trabalhos com especialistas e organizações como a IETF impulsionar extensões robots.txt e princípios mensuráveis que rastreadores bem-intencionados devem seguir.

Além do pulso específico, o caso coloca sobre a mesa o crise de confiança entre criadores de conteúdo, plataformas e empresas de IA: quem pode acessar o que, em que condições e como torná-lo transparente sem quebrar modelos de negócios ou desacelerar a inovação. Tudo aponta para essa conversa permanecerá aberto enquanto agentes de IA ganham destaque e a web ajusta suas regras de coexistência.

Este episódio deixa uma mensagem clara: O rastreamento de IA está sob escrutínio, com a Cloudflare denunciando táticas de camuflagem atribuídas à Perplexity e à startup negando firmemente; no meio, os proprietários do site têm acesso a novas ferramentas para controlar o acesso e um conjunto de boas práticas em construção que marcará o campo de jogo nos próximos meses.