La superintelligence de l’intelligence artificielle (IA) émergera-t-elle soudainement, ou les scientifiques prédisent-ils son émergence et auront-ils l’occasion d’avertir le monde ? Ce problème a reçu beaucoup d'attention récemment avec la montée en puissance des grands modèles de langage (tels que ChatGPT), ces intelligences artificielles ont acquis de nouvelles capacités significatives à mesure qu'elles grandissent.Quelqu’un a souligné le phénomène « d’émergence », un phénomène dans lequel les modèles dits d’intelligence artificielle acquièrent rapidement de l’intelligence de manière incroyable. Mais une étude récente qualifie ces situations de « fantômes » – des artefacts qui surviennent lors des tests du système – et suggère que le renforcement des capacités d’innovation est en réalité un processus graduel.
"Je pense qu'ils ont fait du bon travail en disant : 'Rien de magique ne s'est produit'", a déclaré Deborah Raji, une informaticienne à la Fondation Mozilla qui étudie l'audit de l'intelligence artificielle. "C'est une bonne critique, solide et basée sur des mesures."
Ces travaux ont été présentés lors de la conférence NeurIPS sur l'apprentissage automatique à la Nouvelle-Orléans en décembre dernier.
Plus c'est gros, mieux c'est
Les grands modèles de langage sont généralement entraînés avec d’énormes quantités de texte ou d’autres informations pour générer des réponses réalistes en prédisant ce qui va se passer ensuite. Même sans formation spécifique, ils peuvent traduire des langues, résoudre des problèmes mathématiques, écrire de la poésie ou calculer des codes. Plus le modèle est grand (certains ont plus de cent milliards de paramètres réglables), meilleures sont ses performances. Certains chercheurs soupçonnent que ces outils pourraient éventuellement conduire à une intelligence générale artificielle (AGI) capable d’égaler, voire de dépasser, les performances humaines dans la plupart des tâches.
La nouvelle étude teste l’allégation de l’émergence de plusieurs manières. Tout d’abord, les scientifiques ont comparé les capacités des modèles OpenAIGPT-3 à quatre échelles par addition à quatre chiffres. En termes de précision absolue, la différence de performance entre les troisième et quatrième plus grands modèles varie de près de 0 % à près de 100 %. Mais si l’on considère le nombre de réponses correctement prédites, la différence de niveaux de performance est moins extrême. Les chercheurs ont également constaté que le fait de donner au modèle de nombreuses questions de test aplatissait également la courbe, auquel cas le modèle plus petit répondait parfois correctement.
Les chercheurs ont ensuite examiné les performances du modèle linguistique LaMDA de Google sur un certain nombre de tâches. Il a montré une forte augmentation de l'intelligence lorsqu'il s'agissait de détecter l'ironie ou de traduire des proverbes, qui sont souvent des questions à choix multiples avec des bonnes ou des mauvaises réponses discontinues. Mais lorsque les chercheurs ont étudié la probabilité (une métrique continue) que le modèle attribuait à chaque réponse, les signes d’émergence ont disparu.
Enfin, les chercheurs se sont penchés sur la vision par ordinateur, un domaine où l’on parle peu d’émergence. Ils ont entraîné le modèle à compresser puis à reconstruire les images. Mais tant que des seuils stricts d’exactitude sont fixés, ils peuvent provoquer une émergence significative. "La façon dont ils ont conçu l'enquête était très créative", a déclaré Yejin Choi, informaticien à l'Université de Washington qui étudie l'intelligence artificielle et le bon sens.
Pas encore exclu
Sanmi Koyejo, co-auteur de l'étude et informaticien à l'Université de Stanford, a déclaré qu'il n'était pas absurde que les gens pensent à l'émergence car certains systèmes présentent des « changements de phase » inattendus. Il a également noté que cette étude ne peut pas complètement exclure la possibilité que cela se produise avec de grands modèles de langage (sans parler des futurs systèmes), mais a ajouté que « les recherches scientifiques menées à ce jour suggèrent fortement que la plupart des aspects des modèles de langage sont effectivement prévisibles ».
Raji est heureux de voir le monde universitaire se concentrer davantage sur l’analyse comparative plutôt que sur le développement d’architectures de réseaux neuronaux. Elle souhaite que les chercheurs aillent plus loin et se demandent comment ces tâches sont liées aux applications du monde réel. Par exemple, est-ce que de bons résultats au LSAT (Law School Admission Test) comme GPT-4 signifient que le modèle peut également effectuer du travail parajuridique ?
Ce travail a également des implications pour la sécurité et la politique de l’IA. "Les partisans de l'AGI ont vanté le récit de la capacité d'émergence", a déclaré Raji. Des craintes infondées peuvent conduire à des réglementations étouffantes ou détourner l’attention de risques plus urgents. "Les modèles s'améliorent et sont utiles", a-t-elle déclaré. "Mais ils sont encore loin de prendre conscience."