Pokémon est-il une référence difficile en matière d'intelligence artificielle ? Une équipe de chercheurs pense que Super Mario Bros. est plus difficile. Vendredi, des chercheurs du laboratoire d'intelligence artificielle Hao (HaoAILab) de l'Université de Californie à San Diego ont intégré l'intelligence artificielle dans la diffusion en direct du jeu Super Mario Bros. Claude3.7 d'Anthropic a obtenu les meilleurs résultats, suivi de Claude3.5. Gemini1.5Pro de Google et GPT-4o d'OpenAI ont donné de mauvais résultats.

Vous savez, la version de Super Mario Bros. n'est pas exactement la même que la version originale sortie en 1985. Le jeu fonctionne dans un émulateur et s'intègre au framework GamingAgent pour permettre à l'intelligence artificielle de contrôler Mario.

Le GamingAgent développé par HaoAILab fournit des instructions de base à l'intelligence artificielle, telles que « S'il y a un obstacle ou un ennemi qui approche, déplacez-vous à gauche/sautez pour l'éviter » ainsi que des captures d'écran du jeu. L'IA génère ensuite les entrées qui contrôlent Mario sous forme de code Python.

Cependant, a expliqué Hao, le jeu oblige chaque modèle à « apprendre » à planifier des opérations complexes et à développer des stratégies de jeu. Il est intéressant de noter que le laboratoire a découvert que les modèles inférentiels (tels que le modèle o1 d'OpenAI, qui « réfléchit » à un problème étape par étape pour arriver à une solution) fonctionnaient moins bien que les modèles « non inférentiels », même s'ils étaient généralement plus performants sur la plupart des benchmarks.

Les chercheurs affirment que l’une des principales raisons pour lesquelles les modèles d’inférence ont du mal à jouer à de tels jeux en temps réel est qu’ils prennent un certain temps – souvent quelques secondes – pour décider d’une action. Le timing est primordial dans Super Mario Bros. Une seconde peut faire la différence entre faire un saut en toute sécurité ou tomber dans un abîme.

Les jeux sont utilisés comme référence pour l’intelligence artificielle depuis des décennies. Mais certains experts remettent en question l’opportunité de lier les compétences de jeu de l’IA aux avancées technologiques. Contrairement au monde réel, les jeux ont tendance à être abstraits, relativement simples et fournissent théoriquement des quantités illimitées de données pour entraîner l’intelligence artificielle.

De récents benchmarks flashy en matière de jeux suggèrent que le chercheur scientifique et membre fondateur d'OpenAI, Andrej Karpathy, est confronté à une « crise d'évaluation ».

"Je ne sais vraiment pas quelles mesures [IA] examiner pour le moment. TLDR, ma réaction est que je ne sais vraiment pas à quel point ces modèles sont bons en ce moment", a-t-il écrit dans un article sur X.

Mais au moins, nous pouvons regarder l'IA jouer à Mario.