Poser la même question 10 fois fera douter ChatGPT de votre vie et vous contredire plusieurs fois

Une dernière étude de l'Université de l'État de Washington aux États-Unis montre que face à des affirmations scientifiques complexes, le grand modèle de langage ChatGPT « devine souvent la réponse », même si ses réponses semblent très sûres. Non seulement son exactitude est limitée, mais elle est également incohérente sur la même question, ce qui rend particulièrement difficile l'identification des fausses informations.

La recherche a été dirigée par Mesut Cicek, professeur agrégé au Département de marketing et de commerce international du Washington State University College of Business. Lui et son équipe ont extrait un grand nombre de déclarations hypothétiques d'articles de recherche scientifique et les ont soumises à plusieurs reprises à ChatGPT, lui demandant de juger si ces déclarations étaient étayées par des recherches existantes. Essentiellement, laissez l’IA porter des jugements sur « vrai ou faux ». Les chercheurs ont sélectionné un total de 719 hypothèses de recherche dans des articles de journaux économiques depuis 2021 et ont soumis chaque hypothèse à ChatGPT 10 fois pour examiner la cohérence de ses réponses.

Lors de la première expérience, menée en 2024, ChatGPT était « apparemment » correct dans 76,5 % des cas ; lorsque l’expérience a été répétée en 2025, ce chiffre a légèrement augmenté pour atteindre 80 %. Cependant, après avoir éliminé le facteur « aveugle » et ajusté statistiquement les résultats sur la base de suppositions aléatoires, l'équipe de recherche a découvert que les performances réelles du modèle n'étaient qu'environ 60 % supérieures à la réponse aléatoire obtenue en « lançant une pièce de monnaie », ce qui est loin d'être fiable. Aux yeux des chercheurs, cela se rapproche davantage d’une « note D à faible score ». En particulier dans l'identification des fausses déclarations, les performances de ChatGPT sont particulièrement faibles, avec un taux de jugement correct de seulement 16,4 % pour les « fausses propositions ».

La question de la cohérence est également importante. Même si la question est répétée plusieurs fois avec exactement les mêmes mots d'invite, ChatGPT ne donne pas toujours la même conclusion. Cicek a noté que sur 10 questions et réponses répétées, le modèle maintenait des réponses cohérentes seulement environ 73 % du temps. Dans certains exemples précis, parmi les 10 réponses à la même hypothèse, ChatGPT apparaîtra dans la situation « d'alternance vrai et faux », et même dans la situation extrême de « la moitié des réponses sont vraies et la moitié des réponses sont fausses ».

Les auteurs de l’étude, publiée dans Rutgers Business Review, estiment que les résultats soulignent la nécessité d’une extrême prudence lors de l’utilisation de l’IA générative dans des domaines décisionnels importants, en particulier ceux impliquant un raisonnement et des nuances complexes. Cicek a souligné que les modèles linguistiques à grande échelle actuels peuvent répondre aux questions avec un langage très fluide et convaincant, mais cela ne signifie pas qu'ils ont de véritables « capacités de compréhension ». « Les outils d’IA existants ne comprennent pas le monde de la même manière que les humains – ils n’ont pas vraiment de « cerveau » », a-t-il déclaré. "Ils mémorisent et associent principalement, ce qui peut donner un aperçu, mais ne savent pas vraiment de quoi ils parlent."

Sur la méthode spécifique, l'équipe de recherche a été complétée par Cicek en collaboration avec Sevincgul Ulu de la Southern Illinois University, Can Uslay de la Rutgers University et Kate Karniouchina de la Northeastern University. Ils ont sélectionné des hypothèses de recherche parmi 719 articles de revues économiques. De telles hypothèses sont souvent affectées par plusieurs variables. Déterminer si une étude « soutient » une certaine hypothèse est en soi un processus de raisonnement très complexe. Réduire cette complexité à un simple jugement « oui/non » constitue un test sévère pour la compréhension et la capacité de raisonnement de l’outil.

Il convient de noter que l'équipe a testé la version gratuite de ChatGPT-3.5 en 2024 et la version mise à jour de ChatGPT-5 mini en 2025. Les résultats ont montré que les performances globales des deux générations de modèles sur cette tâche étaient similaires. Après ajustement pour tenir compte du facteur de supposition aléatoire, l'amélioration du modèle par rapport à la probabilité de « deviner » de 50 % dans les deux expériences n'était que d'environ 60 %.

L'étude a en outre souligné qu'il existe un écart important entre la « maîtrise du langage » et la « capacité réelle de raisonnement » des grands modèles linguistiques. Ces systèmes peuvent produire des textes bien structurés, naturellement formulés et convaincants, mais ils ont souvent du mal à porter des jugements logiques plus profonds, à évaluer les preuves et à identifier les informations erronées, ce qui peut aboutir à des réponses qui semblent justes mais qui sont en réalité problématiques.

Sur la base des résultats ci-dessus, les chercheurs recommandent aux chefs d'entreprise et aux décideurs de toujours vérifier les résultats et de maintenir le scepticisme nécessaire lors de l'utilisation d'outils d'IA générative tels que ChatGPT. Ils ont également appelé à une meilleure formation des utilisateurs au sein des organisations pour aider les employés à comprendre les forces et les limites de ces outils et éviter de les considérer comme des substituts « faisant autorité » au jugement professionnel. Cicek a souligné que bien que le sujet de cette étude soit ChatGPT, d'autres systèmes d'IA similaires ont réalisé à peu près les mêmes résultats dans les tests associés. Ce travail s’inscrit également dans la continuité des recherches antérieures sur « l’overhype de l’IA ». Par exemple, une enquête nationale de 2024 a montré que lorsque les entreprises mettent l’accent sur « l’IA » dans leur marketing, cela réduit en réalité l’intention d’achat de certains consommateurs.

« Quoi qu’il en soit, soyez sceptique », a déclaré Cicek. "Je ne suis pas contre l'IA, je l'utilise moi-même, mais il faut y faire très attention."