Un essai de triage d'urgence à Harvard prouve que le diagnostic de l'IA est meilleur que le vrai doctor

Dans les drames médicaux, de George Clooney dans « Urgences » à Noah Wyle dans « Urgences », les médecins urgentistes ont longtemps été décrits comme des héros qui sauvent des vies. Mais une dernière étude de Harvard montre que dans les situations de triage d’urgence sous haute pression, les systèmes d’intelligence artificielle ont surpassé les médecins humains en termes de précision du diagnostic. Ce résultat est décrit par les chercheurs comme un tournant technologique qui va « remodeler la médecine ».

L'étude, publiée dans la revue Science et dirigée par une équipe de la Harvard Medical School, est considérée par des experts indépendants comme marquant une « véritable avancée » dans les capacités de raisonnement clinique de l'IA, au-delà de la simple réussite d'examens ou de la résolution de questions de test construites artificiellement. L'étude a utilisé une conception expérimentale à grande échelle pour comparer des centaines de médecins avec un grand modèle de langage (LLM), en se concentrant sur l'évaluation des différences de performances dans des scénarios clés tels que le triage d'urgence et la planification de traitement à long terme.

Dans l'une des expériences principales, l'équipe de recherche a sélectionné 76 vrais patients qui se sont rendus aux urgences d'un hôpital de Boston. Le système d’IA et une équipe de deux médecins humains ont reçu exactement les mêmes dossiers médicaux électroniques standard, y compris des données sur les signes vitaux, des informations démographiques et une description infirmière en quelques phrases de la raison de la visite. Compte tenu de ces informations limitées pour établir un diagnostic initial, l’IA a donné un diagnostic précis ou très proche dans 67 % des cas, alors que les médecins humains n’avaient raison que dans 50 à 55 % des cas.

La recherche souligne que les avantages de l’IA sont particulièrement importants dans les scénarios de triage où les informations sont extrêmement limitées et où un jugement rapide est nécessaire. Lorsque l'IA et les médecins ont reçu des informations cliniques plus détaillées, la précision du diagnostic de l'IA (en utilisant le modèle d'inférence o1 d'OpenAI) s'est encore améliorée pour atteindre 82 %, tandis que la précision des experts humains variait entre 70 % et 79 %, bien que cette différence ne soit pas statistiquement significative.

En plus du triage d’urgence, l’IA a également montré des performances supérieures aux médecins dans la formulation de plans de traitement à long terme. Dans un autre essai, l'équipe de recherche a demandé à l'IA d'examiner cinq cas cliniques avec 46 médecins, avec des tâches allant de la conception de schémas antibiotiques à la planification de plans de gestion à long terme tels que les processus de soins de fin de vie. Les résultats ont montré que les options de traitement proposées par l'IA obtenaient des résultats nettement plus élevés, avec un score de 89 %, tandis que les médecins qui s'appuyaient sur des sources traditionnelles telles que les moteurs de recherche n'obtenaient qu'un score de 34 %.

Malgré cela, les chercheurs soulignent qu'il est loin d'être temps « d'annoncer le licenciement des médecins urgentistes ». Cette étude a uniquement comparé les capacités de diagnostic de l'IA et des humains au niveau des données du dossier médical pouvant être textifiées, et n'a pas inclus de nombreux signaux cruciaux dans des situations cliniques réelles, tels que les expressions de douleur des patients, leurs états émotionnels, leur langage corporel et même des informations non textuelles telles que les interactions avec les membres de la famille. Autrement dit, dans cette étude, l’IA était plus proche d’un « médecin de l’ombre » qui donnait un deuxième avis sur la base d’informations papier.

"Je ne pense pas que nos résultats signifient que l'IA remplacera les médecins", a déclaré Arjun Manrai, l'un des premiers auteurs de l'étude et directeur du AI Lab de la Harvard Medical School. "Je pense que cela signifie que nous assistons à un changement technologique profond qui va remodeler l'ensemble du système de santé." L'auteur principal Adam Rodman, clinicien au centre médical Beth Israel Deaconess à Boston, a qualifié les grands modèles de langage de "l'une des technologies les plus marquantes des dernières décennies". Il a prédit qu'au cours des dix prochaines années, l'IA ne remplacera pas les médecins, mais formera un nouveau « modèle de soins tripartite » avec les médecins et les patients – « les médecins, les patients et les systèmes d'intelligence artificielle ».

L'étude a également présenté un cas clinique représentatif : un patient s'est présenté à l'hôpital avec des caillots sanguins pulmonaires et une aggravation des symptômes. Les médecins humains ont initialement jugé que le traitement médicamenteux anticoagulant avait échoué, entraînant une progression de la maladie ; mais l’IA a remarqué un point clé après avoir lu les antécédents médicaux : le patient souffrait de lupus érythémateux, une maladie auto-immune qui peut également provoquer une inflammation pulmonaire. Après une inspection plus approfondie, la déduction de l’IA s’est avérée correcte.

L’application clinique de l’IA ne reste pas au stade du laboratoire. Un grand nombre de médecins l’utilisent déjà dans leur pratique. Près d'un médecin américain sur cinq a introduit des outils assistés par l'IA dans ses procédures de diagnostic, selon une étude récente publiée par l'American Medical Association. Au Royaume-Uni, une nouvelle enquête du Royal College of Physicians a révélé que 16 % des médecins utilisent cette technologie quotidiennement, et 15 % supplémentaires l'utilisent une ou plusieurs fois par semaine, l'« aide à la décision clinique » étant l'un des scénarios d'utilisation les plus courants.

Cependant, les médecins britanniques ont également exprimé une grande vigilance à l'égard de l'IA lors de leur enquête, en particulier leurs inquiétudes concernant le risque d'erreur de diagnostic et les problèmes de responsabilité. Bien que des milliards de dollars aient été investis dans les startups d’IA médicale à travers le monde, une fois que l’IA tourne mal, la définition des responsabilités et qui en supportera les conséquences reste un vide institutionnel urgent qui doit être comblé. "Il n'existe actuellement aucun cadre de responsabilité formel", a souligné Rodman, soulignant que les patients "veulent en fin de compte être guidés, accompagnés et expliqués par des humains" lorsqu'ils sont confrontés à des décisions de vie ou de mort ou à des plans de traitement complexes.

Le professeur Ewen Harrison, codirecteur du Centre d'informatique médicale de l'Université d'Édimbourg, a déclaré que la recherche était importante car elle montrait que "ces systèmes ne servent plus seulement à réussir des examens médicaux ou à répondre à des questions de test construites artificiellement". Selon lui, l'IA devient progressivement un « outil de deuxième avis » utile pour les cliniciens, en particulier dans les scénarios où il est nécessaire de trier de manière exhaustive les diagnostics potentiels et d'éviter de passer à côté de causes importantes de maladie.

Dans le même temps, Wei Xing, professeur adjoint à l'École de mathématiques et de sciences physiques de l'Université de Sheffield au Royaume-Uni, a également rappelé que certains résultats de l'étude montrent que lorsque les médecins collaborent avec l'IA, ils peuvent inconsciemment s'appuyer sur les conclusions de l'IA et affaiblir la pensée indépendante. « Cette tendance est susceptible de s’accentuer à mesure que l’IA devient couramment utilisée en milieu clinique », a-t-il noté. Xing Wei a également souligné que l'étude n'a pas révélé complètement quels types de patients l'IA est moins performante, par exemple s'il est plus difficile de diagnostiquer les patients âgés ou les patients dont la langue maternelle n'est pas l'anglais. Ce sont des problèmes qui ne peuvent être ignorés lors de l’évaluation de la sécurité.

Par conséquent, bien que les résultats de l’essai de Harvard soient encourageants, ils ne prouvent pas que l’IA est suffisamment sûre pour être utilisée de manière routinière et indépendante dans le diagnostic et le traitement cliniques, et cela ne signifie pas non plus que le public devrait se tourner vers des outils d’IA gratuits comme substitut aux conseils médicaux professionnels. Dans un avenir prévisible, l'IA sera probablement utilisée comme un « stéthoscope intelligent » et un « deuxième cerveau » de haute performance à intégrer dans le système médical dirigé par l'homme, favorisant un diagnostic et un traitement plus précis et plus efficaces, tout en plaçant de nouvelles questions de responsabilité, d'éthique et de confiance devant la société.