Perplexity ciblé par Cloudflare pour le suivi des sites Web bloqués

Dernière mise à jour: 08/08/2025

  • Cloudflare accuse Perplexity de contourner robots.txt et de masquer son exploration avec des agents utilisateurs et des adresses IP non déclarés.
  • La société affirme avoir observé des changements ASN et des millions de requêtes quotidiennes sur des dizaines de milliers de domaines.
  • Perplexity nie les pratiques secrètes, remet en question la méthodologie et soutient que son IA fonctionne différemment d'un robot d'exploration traditionnel.
  • Cloudflare retire Perplexity de la liste des bots vérifiés et active des règles pour bloquer le suivi de l'IA par défaut.
Cloudflare poursuit Perplexity en justice

Cloudflare a tiré la sonnette d'alarme en publiant un rapport dans lequel accuse le moteur de réponse alimenté par l'IA Perplexity de continuer à explorer des sites Web malgré les barrières placés par leurs propriétaires. Selon le fournisseur d'infrastructure, le service aurait robots.txt ignoré et contourner les blocages du réseau pour accéder au contenu interdit.

Dans un paysage où l'IA dévore les données pour former des modèles et réagir en temps réel, le équilibre entre innovation et respect des règles de l'écosystème web devient tenduLa controverse ravive le débat sur la grattage non autorisé et les limites techniques et éthiques que doivent respecter ceux qui créent des produits basés sur de grandes quantités d’informations en ligne.

Ce que rapporte Cloudflare et pourquoi c'est important

Exploration de l'IA et politiques Web

La société de sécurité et de performance réseau affirme avoir reçu réclamations des clients dont les sites ont continué à recevoir un accès attribué à Perplexity malgré l'interdire dans robots.txt et appliquer les règles de la WAF pour bloquer leurs traqueurs déclarés. Après enquête, Cloudflare affirme avoir détecté un modèle de suivi secret incompatible avec les préférences des propriétaires de sites Web.

Le fournisseur affirme avoir observé ce comportement chez des dizaines de milliers de domaines et des millions de demandes par jour, un ouvrage qui, selon lui, témoigne de pratiques systématiques plutôt qu'accidentelles. En conséquence, a supprimé Perplexity de sa liste de bots vérifiés et a activé des heuristiques et géré des règles pour bloquer ce suivi par défaut.

bloquer les pages Web de Google Chrome
Article connexe:
Comment bloquer des sites Web depuis Google Chrome sans applications externes

Comment la Perplexité aurait surmonté les barrières

robots txt

Selon Cloudflare, lorsque votre traqueurs déclarés (tel qu'identifié par les noms d'agent utilisateur de Perplexity) a rencontré un crash, le système irait à usurper l'identité d'un navigateur commun, se présentant comme s'il était Chrome sur macOS pour camoufler leur identité et éviter d'être repéré.

Contenu exclusif - Cliquez ici  Comment récupérer mon compte Singa ?

De plus, les accès provenaient de plages IP non publiées par Perplexité et tourné fréquemment, ce qui aurait rendu le filtrage difficile. Cloudflare affirme également avoir constaté des changements dans ASN (systèmes autonomes) l'origine des demandes, un autre signe de évasion de bloc réseau.

La recherche mentionne que le comportement observé ne respecterait pas le modèle des bons robots décrits dans RFC 9309 et dans sa politique de « bots vérifiés » : transparence des identités (agent, IP et contact), apaisement de la circulation, un objectif clair et respecter robots.txt déjà les limites fixées par les propriétaires de sites.

Cloudflare affirme avoir été en mesure de « laisser une trace » à ce trafic par une combinaison de signaux réseau et apprentissage automatique, en ajoutant des signatures à vos règles gérées qui identifient et bloquent cette activité, même pour les clients du plan gratuit.

outils de scrapping Web-2
Article connexe:
Meilleurs outils de scraping Web en 2025

Tests avec des domaines leurres et résultats

Pour confirmer leurs soupçons, l’équipe a créé domaines nouveaux et non publiés (non indexés ou liés publiquement) et leur a appliqué une politique interdiction totale de robots.txt, ainsi que des règles spécifiques pour bannir les bots Perplexity. Après avoir consulté l'IA de ces sites, Cloudflare affirme que j'ai eu des réponses avec des détails sur le contenu hébergé, quelque chose qui, s'il est correct, indiquerait accès malgré les barrières.

Contenu exclusif - Cliquez ici  Éliminez les fenêtres publicitaires sur Internet

Lorsque le blocage était effectif, Cloudflare a observé que l'IA de Perplexity eu recours à des sources alternatives pour construire une réponse, mais moins précis et sans les particularités du matériau original, reflétant que le la restriction avait fonctionné.

Réponse officielle de Perplexity

Perplexité et robots.txt

La perplexité, pour sa part, rejette les accusations de suivi secret et d'affirmations selon lesquelles Cloudflare a mal interprété partie de l'activité analysée. Les porte-parole de l'entreprise ont décrit le rapport comme « pièce commerciale » et ils prétendent que certaines preuves ils ne testeraient pas les accès réels ou même correspondre à les robots des autres.

La startup a également partagé sa position sur publications dans X, où il remet en question la capacité du systèmes de détection faire la différence entre assistants IA légitimes, les traceurs tiers et le trafic malveillant. En outre, il soutient qu'un agent recherchant des informations spécifiques répondre à une question ça ne marche pas pareil qu'un robot d'exploration traditionnel qui explore le Web en masse.

Mesures, bonnes pratiques et rôle des autres acteurs

Dans le cadre de sa stratégie, Cloudflare a retiré de la liste de Perplexity de son registre de robots de confiance et a ajouté règles de blocage son prétendu suivi caché. L'entreprise recommande aux administrateurs d'activer politiques anti-robots, Appliquer défis lorsqu'un blocage total n'est pas souhaité et utilise des règles gérées spécifiques contre le Scraping de l'IA.

Contenu exclusif - Cliquez ici  Comment accéder à Google

Dans son argumentation, Cloudflare oppose l'affaire à exemples de conformité des meilleures pratiques, citant les acteurs qui respecter robots.txt, documentent leurs agents et adoptent des normes émergentes telles que Authentification Web BotLors de tests comparatifs, il affirme que d'autres robots ils se sont arrêtés en cas d'interdiction ou de blocage du réseau, sans tentatives camouflées.

Liste des sites Web bloqués en Espagne
Article connexe:
Le gouvernement publie la liste officielle des sites Web bloqués en Espagne : comment fonctionne le système et quels domaines apparaissent.

Un conflit qui marque le cours de l'écosystème

Perplexity explore les sites Web

Le fournisseur prévoit une évolution constante des tactiques des opérateurs de bots et des défenses utilisées pour les contenir. Parallèlement, il collabore avec des experts et des organisations telles que IETF donner une impulsion extensions robots.txt et des principes mesurables auxquels les trackers bien intentionnés devraient adhérer.

Au-delà du pouls spécifique, l'affaire met sur la table la crise de confiance entre les créateurs de contenu, les plateformes et les entreprises d'IA : qui peut accéder à quoi, dans quelles conditions et comment le rendre transparent sans bouleverser les modèles économiques ni freiner l'innovation. Tout porte à croire que cette conversation restera ouvert tandis que les agents d’IA gagnent en importance et que le Web ajuste ses règles de coexistence.

Cet épisode laisse un message clair : Le suivi par l'IA est sous surveillance, avec Cloudflare dénonçant les tactiques de camouflage attribuées à Perplexity et à la startup le niant fermement; au milieu, les propriétaires de sites ont accès à nouveaux outils pour contrôler l'accès et un ensemble de bonnes pratiques en construction qui marquera le terrain de jeu dans les prochains mois.