- Cloudflare accuse Perplexity de contourner robots.txt et de masquer son exploration avec des agents utilisateurs et des adresses IP non déclarés.
- La société affirme avoir observé des changements ASN et des millions de requêtes quotidiennes sur des dizaines de milliers de domaines.
- Perplexity nie les pratiques secrètes, remet en question la méthodologie et soutient que son IA fonctionne différemment d'un robot d'exploration traditionnel.
- Cloudflare retire Perplexity de la liste des bots vérifiés et active des règles pour bloquer le suivi de l'IA par défaut.
Cloudflare a tiré la sonnette d'alarme en publiant un rapport dans lequel accuse le moteur de réponse alimenté par l'IA Perplexity de continuer à explorer des sites Web malgré les barrières placés par leurs propriétaires. Selon le fournisseur d'infrastructure, le service aurait robots.txt ignoré et contourner les blocages du réseau pour accéder au contenu interdit.
Dans un paysage où l'IA dévore les données pour former des modèles et réagir en temps réel, le équilibre entre innovation et respect des règles de l'écosystème web devient tenduLa controverse ravive le débat sur la grattage non autorisé et les limites techniques et éthiques que doivent respecter ceux qui créent des produits basés sur de grandes quantités d’informations en ligne.
Ce que rapporte Cloudflare et pourquoi c'est important

La société de sécurité et de performance réseau affirme avoir reçu réclamations des clients dont les sites ont continué à recevoir un accès attribué à Perplexity malgré l'interdire dans robots.txt et appliquer les règles de la WAF pour bloquer leurs traqueurs déclarés. Après enquête, Cloudflare affirme avoir détecté un modèle de suivi secret incompatible avec les préférences des propriétaires de sites Web.
Le fournisseur affirme avoir observé ce comportement chez des dizaines de milliers de domaines et des millions de demandes par jour, un ouvrage qui, selon lui, témoigne de pratiques systématiques plutôt qu'accidentelles. En conséquence, a supprimé Perplexity de sa liste de bots vérifiés et a activé des heuristiques et géré des règles pour bloquer ce suivi par défaut.
Comment la Perplexité aurait surmonté les barrières

Selon Cloudflare, lorsque votre traqueurs déclarés (tel qu'identifié par les noms d'agent utilisateur de Perplexity) a rencontré un crash, le système irait à usurper l'identité d'un navigateur commun, se présentant comme s'il était Chrome sur macOS pour camoufler leur identité et éviter d'être repéré.
De plus, les accès provenaient de plages IP non publiées par Perplexité et tourné fréquemment, ce qui aurait rendu le filtrage difficile. Cloudflare affirme également avoir constaté des changements dans ASN (systèmes autonomes) l'origine des demandes, un autre signe de évasion de bloc réseau.
La recherche mentionne que le comportement observé ne respecterait pas le modèle des bons robots décrits dans RFC 9309 et dans sa politique de « bots vérifiés » : transparence des identités (agent, IP et contact), apaisement de la circulation, un objectif clair et respecter robots.txt déjà les limites fixées par les propriétaires de sites.
Cloudflare affirme avoir été en mesure de « laisser une trace » à ce trafic par une combinaison de signaux réseau et apprentissage automatique, en ajoutant des signatures à vos règles gérées qui identifient et bloquent cette activité, même pour les clients du plan gratuit.
Tests avec des domaines leurres et résultats
Pour confirmer leurs soupçons, l’équipe a créé domaines nouveaux et non publiés (non indexés ou liés publiquement) et leur a appliqué une politique interdiction totale de robots.txt, ainsi que des règles spécifiques pour bannir les bots Perplexity. Après avoir consulté l'IA de ces sites, Cloudflare affirme que j'ai eu des réponses avec des détails sur le contenu hébergé, quelque chose qui, s'il est correct, indiquerait accès malgré les barrières.
Lorsque le blocage était effectif, Cloudflare a observé que l'IA de Perplexity eu recours à des sources alternatives pour construire une réponse, mais moins précis et sans les particularités du matériau original, reflétant que le la restriction avait fonctionné.
Réponse officielle de Perplexity

La perplexité, pour sa part, rejette les accusations de suivi secret et d'affirmations selon lesquelles Cloudflare a mal interprété partie de l'activité analysée. Les porte-parole de l'entreprise ont décrit le rapport comme « pièce commerciale » et ils prétendent que certaines preuves ils ne testeraient pas les accès réels ou même correspondre à les robots des autres.
La startup a également partagé sa position sur publications dans X, où il remet en question la capacité du systèmes de détection faire la différence entre assistants IA légitimes, les traceurs tiers et le trafic malveillant. En outre, il soutient qu'un agent recherchant des informations spécifiques répondre à une question ça ne marche pas pareil qu'un robot d'exploration traditionnel qui explore le Web en masse.
Mesures, bonnes pratiques et rôle des autres acteurs
Dans le cadre de sa stratégie, Cloudflare a retiré de la liste de Perplexity de son registre de robots de confiance et a ajouté règles de blocage son prétendu suivi caché. L'entreprise recommande aux administrateurs d'activer politiques anti-robots, Appliquer défis lorsqu'un blocage total n'est pas souhaité et utilise des règles gérées spécifiques contre le Scraping de l'IA.
Dans son argumentation, Cloudflare oppose l'affaire à exemples de conformité des meilleures pratiques, citant les acteurs qui respecter robots.txt, documentent leurs agents et adoptent des normes émergentes telles que Authentification Web BotLors de tests comparatifs, il affirme que d'autres robots ils se sont arrêtés en cas d'interdiction ou de blocage du réseau, sans tentatives camouflées.
Un conflit qui marque le cours de l'écosystème

Le fournisseur prévoit une évolution constante des tactiques des opérateurs de bots et des défenses utilisées pour les contenir. Parallèlement, il collabore avec des experts et des organisations telles que IETF donner une impulsion extensions robots.txt et des principes mesurables auxquels les trackers bien intentionnés devraient adhérer.
Au-delà du pouls spécifique, l'affaire met sur la table la crise de confiance entre les créateurs de contenu, les plateformes et les entreprises d'IA : qui peut accéder à quoi, dans quelles conditions et comment le rendre transparent sans bouleverser les modèles économiques ni freiner l'innovation. Tout porte à croire que cette conversation restera ouvert tandis que les agents d’IA gagnent en importance et que le Web ajuste ses règles de coexistence.
Cet épisode laisse un message clair : Le suivi par l'IA est sous surveillance, avec Cloudflare dénonçant les tactiques de camouflage attribuées à Perplexity et à la startup le niant fermement; au milieu, les propriétaires de sites ont accès à nouveaux outils pour contrôler l'accès et un ensemble de bonnes pratiques en construction qui marquera le terrain de jeu dans les prochains mois.
Je suis un passionné de technologie qui a fait de ses intérêts de « geek » un métier. J'ai passé plus de 10 ans de ma vie à utiliser des technologies de pointe et à bricoler toutes sortes de programmes par pure curiosité. Aujourd'hui, je me spécialise dans l'informatique et les jeux vidéo. En effet, depuis plus de 5 ans, j'écris pour différents sites Web sur la technologie et les jeux vidéo, créant des articles qui cherchent à vous donner les informations dont vous avez besoin dans un langage compréhensible par tous.
Si vous avez des questions, mes connaissances s'étendent de tout ce qui concerne le système d'exploitation Windows ainsi qu'Android pour les téléphones mobiles. Et mon engagement est envers vous, je suis toujours prêt à consacrer quelques minutes et à vous aider à résoudre toutes les questions que vous pourriez avoir dans ce monde Internet.