Cloudflare a récemment annoncé qu'il apporterait des ajustements importants à la configuration par défaut des sites Web utilisant ses services, fixant une nouvelle « date limite » pour l'ensemble du secteur de l'intelligence artificielle : obliger les sociétés d'IA à distinguer clairement les robots d'exploration Web utilisés pour la recherche traditionnelle des robots utilisés pour les agents d'IA et la formation des modèles d'ici le 15 septembre de cette année, sinon ces robots « à usage mixte » seront bloqués par défaut sur un grand nombre de pages publicitaires.

Selon les détails annoncés par Cloudflare, tout robot d'exploration de données utilisé simultanément pour la recherche, l'appel d'agents d'IA et la formation de modèles ne pourra pas être exploré par défaut s'il accède à une page Web hébergeant des publicités, à moins que le propriétaire du site Web ne modifie activement les paramètres pertinents. Ces nouveaux paramètres par défaut s'appliqueront aux nouveaux clients Cloudflare, aux nouveaux sites créés par les clients existants et à tous les sites d'utilisateurs gratuits existants. Cette évolution affectera directement la manière dont les fournisseurs de modèles d’IA obtiennent du contenu Web pour la formation et la génération de services, et modifiera également le modèle de fourniture de données derrière les services d’agents d’IA.
Cloudflare a souligné que la plupart des propriétaires de sites Web espèrent que leur contenu puisse être découvert via les moteurs de recherche traditionnels et sont également heureux d'être cités par les services d'IA sous certaines conditions, mais ils ne souhaitent pas que leurs droits de propriété intellectuelle soient détournés gratuitement et à grande échelle sans autorisation. Cloudflare a nommé « le plus grand moteur de recherche au monde » (indiquant apparemment Google) dans sa description, affirmant qu'il dispose d'« environ deux fois plus d'informations accessibles » que d'autres sociétés d'IA. La raison en est que le géant de la recherche rend difficile pour les sites de maintenir la visibilité des recherches tout en évitant complètement l’utilisation de l’IA.
Google a toujours réfuté des accusations générales similaires, soulignant qu'il fournit un robot appelé « Google Extended » permettant aux sites de choisir, qui est utilisé pour refuser explicitement que le contenu du site Web soit utilisé pour la formation en IA et les produits et services d'IA tels que Gemini Apps et Vertex API, sans affecter l'inclusion du site Web dans la recherche Google. Cependant, même si Googlebot, le principal robot d'exploration de Google, indexe les pages pour la recherche, il fournit également une prise en charge des données pour les fonctions d'IA intégrées à la recherche, telles que les aperçus de l'IA et le mode IA.
Matthew Prince, co-fondateur et PDG de Cloudflare, a déclaré dans l'annonce qu'à mesure que la structure du trafic Internet change, "la grande majorité du trafic sur Internet aujourd'hui n'est plus accessible aux humains". L’industrie s’attendait auparavant à ce que le point d’inflexion où « le trafic de robots dépasse le trafic humain » n’intervienne pas avant l’année prochaine. Il a souligné : « Dans ce cas, nous devons aller plus loin et aller plus vite pour former véritablement un écosystème durable. »
Prince a déclaré que les nouveaux outils et partenariats de Cloudflare offriront aux propriétaires de sites Web une plus grande visibilité et des opportunités commerciales à l'ère de l'IA, tout en bénéficiant également aux robots d'exploration de l'IA avec des utilisations claires et des intentions transparentes. Il espère qu'en ajustant la politique par défaut, il pourra forcer les « robots d'exploration à usage mixte » à séparer clairement la recherche traditionnelle des appels d'agents et des objectifs de formation. Au niveau commercial externe, Cloudflare propose une variété de produits pour aider les utilisateurs à créer leurs propres systèmes d'IA. D'autre part, elle a également lancé ces dernières années une série d'outils « d'amélioration du contrôle » pour les éditeurs et les acteurs du contenu.
Dès 2024, Cloudflare a lancé un outil spécifiquement pour lutter contre les robots d'exploration IA, puis a lancé un marché appelé « Pay Per Crawl » en 2025, permettant aux sites Web de facturer aux robots d'exploration IA les frais d'exploration. Les dernières nouvelles montrent que ce modèle évolue vers le « Pay Per Use », c'est-à-dire qu'il ne facture plus uniquement en fonction du « comportement d'exploration », mais facture les entreprises d'IA en fonction de la « création de valeur » réelle du contenu dans le système d'IA.
Cloudflare a souligné que ce modèle de « paiement à l'utilisation » offre non seulement de nouveaux canaux de revenus aux éditeurs, mais les aide également à économiser leur bande passante et leurs ressources informatiques, car ses données internes montrent que plus de 50 % du trafic d'exploration des robots d'exploration de l'IA est consacré à l'exploration répétée de pages qui n'ont pas été mises à jour. Grâce à de nouveaux mécanismes de facturation et de contrôle, les éditeurs peuvent donner la priorité à des ressources limitées sur des demandes vraiment intéressantes tout en imposant des contraintes financières sur les « analyses de doublons inefficaces ».
En termes de coopération de mise en œuvre spécifique, Cloudflare a actuellement lancé des projets pilotes avec deux partenaires, Ceramic.ai et You.com. Lorsque les éditeurs choisissent de rejoindre le programme, ils recevront une compensation correspondante tant que leur contenu apparaîtra dans les résultats de recherche AI de Ceramic ou sera consulté en tant qu'élément de « contenu premium payant » par You.com. Cloudflare a déclaré que d'autres sociétés d'IA peuvent également personnaliser et étendre ce modèle de paiement en fonction de leurs propres formes de produits.
Dans le contexte d'une attention croissante du public et de la réglementation sur les questions d'exploration de l'IA et de droits d'auteur, les ajustements de politique et les mises à niveau du modèle économique de Cloudflare visent évidemment à donner plus de poids et d'espace de profit aux éditeurs, tout en exerçant une nouvelle pression en matière de transparence et de conformité sur les entreprises d'IA. Pour l'industrie de l'IA, tout en continuant à s'appuyer sur un contenu Web massif pour former et exécuter divers agents intelligents, comment trouver un équilibre entre la commodité technique et les droits et intérêts des propriétaires de contenu deviendra une question centrale inévitable à l'avenir.