La dernière étude de la BBC a révélé que les chatbots d’intelligence artificielle présentent encore des lacunes importantes en termes d’exactitude des reportages, près de la moitié du contenu généré contenant des erreurs. Selon un rapport d'analyse publié conjointement par la BBC et 22 autres médias publics européens, dans 18 pays et 14 environnements linguistiques, lorsque les chatbots IA accédaient au contenu des agences de presse et répondaient aux questions connexes, environ 45 % de leurs réponses contenaient des erreurs.
Ces erreurs incluent non seulement des phrases inexactes et des citations erronées, mais également des problèmes tels que des informations obsolètes, des citations erronées et des incohérences de sources. Le rapport note que les chatbots fournissent souvent des liens qui ne correspondent pas aux sources réelles citées et, même lorsqu'ils citent des documents avec précision, ne parviennent pas à distinguer les faits de l'opinion, la satire du journalisme légitime.
De grandes entreprises technologiques, notamment OpenAI, Google, Microsoft, etc., promeuvent activement les chatbots génératifs d’IA et les intègrent profondément dans les plateformes Internet pour aider les utilisateurs à obtenir et analyser automatiquement des informations. Bien que les développeurs continuent d'investir beaucoup de ressources pour réduire le phénomène « d'hallucination » (c'est-à-dire la fabrication de contenu IA), les rapports montrent que ce problème est encore difficile à résoudre complètement à court terme.
Lors de tests réels, de nombreux outils d'IA grand public tels que ChatGPT, Copilot et Gemini comportaient tous des erreurs importantes. Par exemple, ils affirment à tort que le pape François est toujours en fonction, alors qu’en réalité Léon XIV lui a succédé. Certains AI ont même correctement rapporté la date du décès de François, tout en le décrivant comme le pape actuel. En outre, il existe des informations obsolètes et incorrectes sur les postes de direction concernés.

Le rapport montre également que ces problèmes ne se limitent pas à une région ou à une langue, mais sont répandus dans le monde entier. Parmi eux, Gemini de Google est le moins précis, avec jusqu'à 72 % de ses réponses contenant des erreurs de source significatives. OpenAI avait précédemment attribué ces erreurs au fait que la première version n’avait été formée que jusqu’en septembre 2021 et n’avait pas réussi à obtenir des informations Internet en temps réel. Cependant, il n'est plus applicable. Par conséquent, le problème provient probablement de l’algorithme lui-même et est difficile à résoudre via des mises à jour des données.
Bien que la proportion d'erreurs graves ait chuté de 51 % à 37 % par rapport au test distinct de la BBC en février de cette année, Gemini est toujours à la traîne par rapport aux autres produits. Malgré les mauvais résultats, les chercheurs ont constaté que le public britannique faisait preuve d’un degré élevé de confiance dans la synthèse de l’actualité par l’IA : plus d’un tiers des adultes britanniques et près de la moitié des personnes de moins de 35 ans pensaient que l’IA pouvait résumer avec précision le contenu de l’actualité. 42 % du public ont déclaré que lorsque l’IA déforme le contenu original de l’actualité, elle remet également en question la fiabilité de l’agence de presse elle-même ou réduit la confiance qu’elle lui accorde. Les experts préviennent que la popularité croissante des outils d’IA générative pourrait sérieusement nuire à la réputation et à la crédibilité des grands organes de presse si de tels problèmes persistent.
