Un problème avec ChatGPT divulgue des conseils privés à Google Search Console

En septembre de cette année, certains développeurs utilisant Google Search Console ont découvert une anomalie : un texte de type chat apparaissait dans le rapport sur le trafic de recherche du site Web au lieu des termes de recherche courts précédents. Ces nouvelles entrées ressemblent davantage à des conversations privées entre utilisateurs et chatbots sur des questions personnelles ou liées au travail, plutôt qu'aux demandes habituelles des visiteurs du site.

Google Search Console était à l'origine utilisé pour montrer comment les utilisateurs accèdent au site Web via la recherche Google. À la grande surprise des administrateurs du site Web, le nouveau contenu ne ressemblait en rien aux termes de recherche et ressemblait davantage à des conversations privées avec des chatbots connectés à un système censé contenir uniquement des données d'analyse du trafic.

Cette anomalie a été publiée pour la première fois par Jason Packer, fondateur de la société d'analyse Quantable, sur le blog de l'entreprise. En collaboration avec le consultant en optimisation de sites Web Slobodan Manić, il a passé des semaines à reproduire l'expérience, à tester différentes entrées et à suivre l'interaction de la fonctionnalité de recherche de ChatGPT avec le système d'indexation de Google. Les conclusions finales ont révélé des risques pour la vie privée qui allaient bien au-delà d'un « simple dysfonctionnement ».

Selon les tests de Packer et Manić, certaines sessions ChatGPT acheminent par inadvertance les invites des utilisateurs vers les recherches Google. Ils l'ont retracé jusqu'à un modèle d'URL spécifique – https://openai.com/index/chatgpt/ – qui apparaît à plusieurs reprises au début du contenu divulgué. Lorsque Google effectue une segmentation de mots sur l'adresse, celle-ci sera analysée en « openai », « index » et « chatgpt ». Pour les sites Web très bien classés pour ces mots, vous pouvez voir que certaines invites utilisateur de ChatGPT sont enregistrées dans le backend de la Search Console.

En d’autres termes, si un conseil utilisateur soumis par ChatGPT déclenche une recherche externe, Google enregistrera parfois le conseil lui-même comme terme de recherche. Pour les administrateurs des sites concernés, les mots d’invite divulgués apparaîtront en arrière-plan sous forme de données de trafic.

OpenAI a reconnu le problème, le qualifiant de « problème de routage qui a brièvement affecté un petit nombre de recherches » et a déclaré qu'il avait été corrigé sans plus de détails. Packer a salué la solution rapide d'OpenAI, mais a noté que la société n'avait pas répondu à la question plus large : si l'incident confirmait que ChatGPT continuait à extraire les résultats de recherche Google pour améliorer sa réponse.

Ce problème implique le comportement de « navigation Web » introduit par ChatGPT dans la nouvelle version du modèle GPT-5 : lorsque le système détermine qu'une invite nécessite les informations les plus récentes ou externes, une recherche sur le Web sera déclenchée. Cependant, Packer et Manić ont découvert qu'il y avait un paramètre "hints=search" dans une version de l'interface de chat, qui déclenchait une recherche presque à chaque fois.

De plus, un bug dans la zone de saisie entraînait l'ajout de l'URL de référence à chaque requête. De cette façon, chaque fois que ChatGPT effectue une recherche, Google enregistre non seulement l'URL, mais également l'invite de l'utilisateur. Étant donné que la Search Console suit l'intégralité de la chaîne de recherche, les invites utilisateur sont « entièrement visibles » pour le propriétaire du site concerné.

Packer pense que le système interagit directement avec l'infrastructure d'indexation de Google, plutôt que via une API privée ou un canal de données interne (qui autrement n'apparaîtrait pas dans la Search Console). Cette visibilité inattendue montre en fait que ChatGPT effectue des recherches Google en direct et expose les entrées des utilisateurs sur Google et tous les sites associés.

OpenAI a déclaré que seul un très petit nombre de demandes de recherche ont été divulguées et n'a pas donné de nombre précis. On ne sait donc pas encore combien de ses 700 millions d'utilisateurs actifs hebdomadaires ont été concernés.

Auparavant, il y avait un problème où les utilisateurs découvraient que leurs liens publics vers ChatGPT étaient inclus par le site Web principal de Google. À cette époque, OpenAI affirmait que l’utilisateur avait actionné par erreur le commutateur de partage. Dans ce cas, Packer a souligné qu’aucune action de l’utilisateur n’avait déclenché la fuite. "Il n'y a aucun mécanisme de consentement impliqué", a-t-il déclaré à Ars Technica dans une interview. "Personne n'a cliqué sur "Partager" et les mots d'invite ont été mal acheminés." Contrairement aux pages publiques, les entrées dans la Search Console ne peuvent pas être supprimées manuellement par les utilisateurs concernés, de sorte que le contenu sera toujours exposé aux propriétaires de sites Web classés pour des mots-clés pertinents.

Les chercheurs soupçonnent que l'anomalie peut également être liée à un phénomène connu dans les cercles d'analyse des moteurs de recherche sous le nom de « gueule de crocodile » : un pic d'impressions mais une baisse des clics sur le graphique de la Search Console. Si le système OpenAI interroge Google à plusieurs reprises avec un grand nombre de requêtes synthétiques, il est susceptible de fausser ces données d'analyse.

Packer et Manić ne sont toujours pas en mesure de confirmer si le correctif d'OpenAI bloque complètement tous les types de fuites de mots d'invite ou résout uniquement un bug dans le mécanisme de routage d'URL spécifique. Ils ont dit qu’ils devaient continuer à faire attention. "Nous ne savons pas encore si cela affecte uniquement une certaine interface ou si cela implique un plus large éventail de conversations", a déclaré Packer. "En bref, cela nous rappelle qu'il existe encore de nombreux risques incontrôlables et imprévisibles dans le traitement des données des utilisateurs par les systèmes derrière ces outils d'IA."