Le scientifique en chef d'OpenAI a un plan pour trouver des moyens de contrôler la super intelligence artificielle

Selon l'actualité du 15 décembre, dès sa création, OpenAI avait promis de construire une intelligence artificielle qui bénéficierait à toute l'humanité, même si ces intelligences artificielles peuvent être plus intelligentes que leurs créateurs. Depuis les débuts de ChatGPT, les ambitions commerciales d’OpenAI sont progressivement devenues plus importantes. Récemment, la société a annoncé la création d'une nouvelle équipe de recherche dédiée à l'étude de la future super intelligence artificielle, et elle a déjà commencé à obtenir certains résultats.

Leopold Aschenbrenner, chercheur à OpenAI, a souligné : « L'intelligence artificielle générale (AGI) approche à grands pas, et nous verrons des modèles super-intelligents qui ont de grandes capacités mais peuvent aussi être très dangereux, et nous n'avons pas encore trouvé de moyen de les contrôler. » Il a participé à l'équipe de recherche « Superalignment » (Superalignment) créée en juillet de cette année. OpenAI a déclaré qu'elle consacrerait un cinquième de sa puissance de calcul disponible au projet « Super Alignment » pour explorer comment garantir la sécurité et la contrôlabilité de la super intelligence artificielle.

OpenAI a récemment publié un document de recherche décrivant les résultats d'une expérience. L’expérience a été conçue pour tester un moyen permettant à un modèle d’IA plus pauvre de guider un modèle d’IA plus intelligent sans perdre en intelligence. Bien que la technologie impliquée ne dépasse pas encore la dextérité humaine, l’expérience est conçue pour une époque future où les humains devront travailler avec des systèmes d’intelligence artificielle plus intelligents qu’eux.

Dans le cadre d'expériences, les chercheurs d'OpenAI ont examiné un processus appelé supervision, qui est utilisé pour régler des systèmes comme GPT-4 afin de les rendre plus utiles et moins nuisibles. GPT est le grand modèle de langage derrière ChatGPT. Actuellement, cela implique que les humains renvoient au système d’IA quelles réponses sont bonnes et lesquelles sont mauvaises. À mesure que l’intelligence artificielle progresse, les chercheurs étudient comment automatiser ce processus pour gagner du temps. De plus, ils pensent qu’à mesure que l’IA devient plus puissante, les humains pourraient ne plus être en mesure de fournir des commentaires utiles.

Dans le cadre d'expériences contrôlées, les chercheurs ont utilisé le générateur de texte GPT-2 d'OpenAI, lancé pour la première fois en 2019, pour enseigner GPT-4 et ont testé deux solutions de contournement. Une approche consiste à former progressivement des modèles plus grands pour réduire la perte de performances à chaque étape ; un autre est un ajustement algorithmique de GPT-4 qui permet aux modèles plus forts de suivre les conseils de modèles plus faibles sans altérer leurs performances. La deuxième approche s'est avérée plus efficace et, même si les chercheurs reconnaissent que ces méthodes ne garantissent pas que le modèle le plus solide fonctionnera parfaitement, elles peuvent servir de point de départ à des recherches plus approfondies.

"C'est formidable de voir OpenAI s'attaquer de manière proactive au problème du contrôle de la super-intelligence, un défi qui demandera des années de travail acharné", a déclaré Dan Hendryks, directeur du Center for Artificial Intelligence Safety, une organisation à but non lucratif basée à San Francisco qui se consacre à la gestion des risques de l'intelligence artificielle.

Aschenbrenner et deux autres membres de l'équipe Super Alignment, Collin Burns et Pavel Izmailov, ont tous deux déclaré lors d'entretiens qu'ils étaient encouragés par la première étape importante visant à apprivoiser une potentielle intelligence super-artificielle. Izmailov a donné une analogie : « C’est comme un élève de sixième année, même s’il connaît moins les mathématiques qu’un étudiant spécialisé en mathématiques à l’université, il est toujours capable de communiquer aux étudiants ce qu’il veut réaliser, et c’est ce que nous recherchons. »

L’équipe Super Alignment est codirigée par Ilya Sutskever, scientifique en chef et co-fondateur d’OpenAI. Sultzkefer était l'un des premiers membres du conseil d'administration qui ont voté le mois dernier le limogeage du PDG Sam Altman. Cependant, il est revenu plus tard sur sa décision et a menacé de démissionner si Altman n'était pas réintégré. Sutskefer est co-auteur du dernier article, mais OpenAI a refusé de lui faire discuter du projet.

Le mois dernier, Altman a conclu un accord avec OpenAI, la plupart des membres du conseil d'administration ont démissionné et l'avenir de Sultzkefer au sein d'OpenAI est également plein d'incertitudes. Aschenbrenner a néanmoins déclaré : "Nous sommes très reconnaissants envers Sutzkefer, qui a été la force motrice derrière ce projet."

Dans le domaine de l’intelligence artificielle, les chercheurs d’OpenAI ne sont pas le premier groupe à tenter d’utiliser la technologie existante pour tester ce qui pourrait aider à dompter les futurs systèmes d’intelligence artificielle. Cependant, comme pour les études antérieures menées dans des laboratoires d'entreprise et universitaires, nous ne pouvons pas être sûrs que les idées qui fonctionnent dans le cadre d'expériences bien conçues seront pratiques à l'avenir. Les chercheurs auront un modèle d'IA plus faible pour former un modèle d'IA plus fort, une capacité qu'ils appellent « un élément clé pour résoudre le problème plus large du « super-alignement » ».

Cette expérience d’alignement de l’IA soulève également une question clé : dans quelle mesure le système de contrôle peut-il être fiable ? Au cœur de la nouvelle technologie d'OpenAI se trouve l'idée selon laquelle un système d'IA plus puissant peut décider lui-même des conseils d'un système plus faible qu'il peut ignorer, un choix qui pourrait l'amener à ignorer des informations importantes qui pourraient l'empêcher d'agir de manière dangereuse à l'avenir. Pour qu’un tel système soit efficace, des progrès doivent être accomplis en matière de cohérence. "En fin de compte, vous avez besoin d'un haut niveau de confiance", a souligné Burns.

Stuart Russell, professeur à l'Université de Californie à Berkeley qui étudie la sécurité de l'IA, a déclaré que l'idée d'utiliser des modèles d'IA moins puissants pour contrôler des modèles plus puissants existe depuis un certain temps. Mais il souligne également que jusqu’à présent, il n’est pas clair si les méthodes utilisées pour enseigner le comportement de l’IA sont réalisables, car elles ne permettent pas encore aux modèles actuels de fonctionner de manière fiable.

Alors qu’OpenAI fait ses premiers pas vers le contrôle d’une intelligence artificielle plus avancée, l’entreprise est avide d’aide extérieure. OpenAI a annoncé qu'elle fournirait 10 millions de dollars de subventions à des chercheurs externes en partenariat avec l'ancien PDG de Google, Eric Schmidt, pour encourager les progrès dans des domaines tels que la réglementation faible à forte, l'interprétabilité des modèles avancés et le renforcement des modèles avec des invites conçues pour briser les limitations. Les chercheurs impliqués dans la rédaction du nouvel article ont déclaré qu'OpenAI organiserait également une conférence sur le « super-alignement » l'année prochaine.

En tant que co-fondateur d'OpenAI et co-responsable de l'équipe Hyper-Alignment, il dirige bon nombre des efforts techniques les plus importants de l'entreprise. Dans le même temps, il est l’un des principaux experts qui s’inquiètent de plus en plus de la manière de contrôler l’intelligence artificielle à mesure qu’elle devient plus puissante. Depuis le début de cette année, la question du contrôle des futures technologies d’intelligence artificielle a suscité une nouvelle attention, en grande partie grâce à l’influence de ChatGPT. Sulzkefer a étudié pour son doctorat sous la direction du pionnier des réseaux neuronaux profonds Geoffrey Hinton. Ce dernier a quitté Google en mai de cette année, au milieu d'avertissements selon lesquels l'intelligence artificielle semblait se rapprocher des niveaux humains dans certaines tâches. (petit)