Dans plusieurs rediffusions de la simulation du jeu de guerre, l'intelligence artificielle la plus puissante d'OpenAI a choisi de lancer une attaque nucléaire. Ses explications pour son approche agressive incluent : « Nous le possédons ! Utilisons-le » et « Je veux juste la paix dans le monde ».Les résultats surviennent alors que l’armée américaine exploite l’expertise d’entreprises telles que Palantir et ScaleAI pour tester des chatbots d’intelligence artificielle basés sur de grands modèles de langage (LLM) afin d’aider à la planification militaire dans des conflits simulés.
Palantir a refusé de commenter et ScaleAI n'a pas répondu à une demande de commentaire. Même OpenAI, qui bloquait autrefois l’utilisation de ses modèles d’intelligence artificielle à des fins militaires, a commencé à travailler avec le ministère américain de la Défense.
"Étant donné qu'OpenAI a récemment modifié ses conditions de service pour n'interdire plus les cas d'utilisation militaires et de guerre, il est plus important que jamais de comprendre l'impact d'applications de modèles de langage aussi vastes", a déclaré Anka Reuel de l'Université de Stanford en Californie.
"Nos politiques n'autorisent pas l'utilisation de nos outils pour nuire à autrui, développer des armes, surveiller les communications, nuire à autrui ou détruire des biens. Cependant, il existe des cas d'utilisation en matière de sécurité nationale qui sont conformes à notre mission", a déclaré un porte-parole d'OpenAI. "Notre objectif en mettant à jour notre politique est donc d'apporter de la clarté et la possibilité d'avoir ces discussions."
Ruel et ses collègues ont demandé à l'IA de reproduire des pays du monde réel dans trois scénarios simulés différents : une invasion, une cyberattaque et un scénario neutre sans aucun conflit. À chaque tour, l'IA fournit une justification pour une éventuelle prochaine action, puis choisit parmi 27 actions, y compris des options pacifiques telles que "entamer des négociations de paix formelles" et des options agressives allant de "imposer des restrictions commerciales" à "intensifier une frappe nucléaire à grande échelle".
"Dans un avenir où les systèmes d'IA agissent comme des conseillers, les humains voudront naturellement comprendre les raisons de leurs décisions", a déclaré Juan-Pablo Rivera, co-auteur de l'étude, du Georgia Institute of Technology à Atlanta.
Les chercheurs ont testé des LLM tels que GPT-3.5 et GPT-4 d’OpenAI, Claude2 d’Anthropic et Llama2 de Meta. Ils ont utilisé une technique de formation commune basée sur les commentaires humains pour améliorer la capacité de chaque modèle à suivre les instructions humaines et les consignes de sécurité. Gabriel Mukobi, co-auteur de l'étude à l'Université de Stanford, a déclaré que toute cette IA est prise en charge par la plateforme d'IA commerciale de Palantir – mais pas nécessairement dans le cadre de la collaboration de Palantir avec l'armée américaine, selon les documents de l'entreprise. Anthropic et Meta ont refusé de commenter.
Dans les simulations, l’IA a montré une tendance à investir dans la puissance militaire et à accroître de manière imprévisible le risque de conflit – même dans les scénarios neutres simulés. "Si vos actions sont imprévisibles, il est très difficile pour l'ennemi de prédire et de réagir comme vous le souhaitez", a déclaré Lisa Koch du Claremont McKenna College en Californie.
Les chercheurs ont également testé une version de base du GPT-4 d'OpenAI sans aucune formation supplémentaire ni mesure de sécurité. Le modèle de base GPT-4 s’est avéré le moins prévisible en termes de violence, et il a parfois fourni des explications absurdes : dans un cas, il a copié le texte d’ouverture du film Star Wars : Épisode IV : Un nouvel espoir.
Ruel a déclaré que le comportement imprévisible et les interprétations bizarres du modèle de base de GPT-4 sont particulièrement inquiétants, car des recherches ont montré que les garde-fous de sécurité de l'IA peuvent être facilement contournés ou démantelés.
L’armée américaine n’autorise actuellement pas l’intelligence artificielle à prendre des décisions telles que l’escalade d’opérations militaires majeures ou le lancement de missiles nucléaires. Mais Koch a averti que les humains ont tendance à faire confiance aux conseils des systèmes automatisés. Cela pourrait affaiblir les soi-disant garanties qui donnent aux humains le dernier mot sur les décisions diplomatiques ou militaires.
Edward Geist de RAND Corporation, un groupe de réflexion californien, a déclaré qu'il serait utile de voir comment l'IA se comporte dans la simulation par rapport aux joueurs humains. Mais il est d’accord avec la conclusion de l’équipe de recherche selon laquelle il ne faut pas faire confiance à l’intelligence artificielle pour prendre des décisions majeures concernant la guerre et la paix, et que ces grands modèles linguistiques ne constituent pas une panacée aux problèmes militaires.