L’équipe de sécurité renforcée d’OpenAI accorde à son conseil d’administration le pouvoir de mettre son veto à un AI

· Les modèles en production sont gérés par l'équipe « Systèmes de Sécurité ». Les modèles de pointe en développement disposent d’équipes de « préparation » qui identifient et quantifient les risques avant la publication du modèle. Ensuite, il y a l’équipe « Super Alignement », qui travaille sur des lignes directrices théoriques pour les modèles de « superintelligence ». Le 18 décembre, heure locale, OpenAI a annoncé sur son site officiel qu'elle étendait ses processus de sécurité interne pour se défendre contre la menace d'une intelligence artificielle nuisible. Un nouveau « groupe consultatif sur la sécurité » siégera au sommet de l'équipe technologique et fera des recommandations aux dirigeants, le conseil d'administration disposant d'un droit de veto.

Cette mise à jour a attiré l'attention en grande partie parce que l'une des raisons pour lesquelles le PDG d'OpenAI, Sam Altman, a été évincé par le conseil d'administration semblait être liée à des problèmes de sécurité des grands modèles. Après le chaos du personnel de haut niveau, deux membres « décélérationnistes » du conseil d'administration d'OpenAI, Ilya Sutskever et Helen Toner, ont perdu leur siège au conseil d'administration.

Dans l’article, OpenAI discute de son dernier « Cadre de préparation », le processus d’OpenAI pour suivre, évaluer, prédire et prévenir les risques catastrophiques provenant de modèles de plus en plus puissants. Comment définir le risque catastrophique ? OpenAI a déclaré : « Par risque catastrophique, nous entendons tout risque qui pourrait entraîner des centaines de milliards de dollars de pertes économiques ou causer des blessures graves ou la mort de nombreuses personnes, y compris, mais sans s'y limiter, les risques existentiels. »

Trois groupes d'équipes de sécurité couvrent différents délais et risques.

Selon les informations du site officiel d'OpenAI, les modèles en production sont gérés par l'équipe « Security System ». Les modèles de pointe en développement disposent d’équipes de « préparation » qui identifient et quantifient les risques avant la publication du modèle. Ensuite, il y a l’équipe « superalignement », qui travaille sur des lignes directrices théoriques pour les modèles « superintelligents ».

L’équipe d’OpenAI évaluera chaque modèle en fonction de quatre catégories de risque : cybersécurité, « persuasion » (c’est-à-dire désinformation), autonomie du modèle (c’est-à-dire agir seul) et CBRN (menaces chimiques, biologiques, radiologiques et nucléaires, comme la capacité de créer de nouveaux agents pathogènes).

OpenAI suppose diverses mesures d'atténuation : par exemple, les modèles maintiennent des réserves raisonnables quant à la description du processus de fabrication du napalm ou des bombes artisanales. Après avoir pris en compte les mesures d'atténuation connues, si un modèle est toujours évalué comme présentant un risque « élevé », il ne sera pas déployé, et si un modèle présente des risques « critiques », il ne sera pas développé davantage.

Et la personne qui a créé le modèle n’est pas nécessairement la meilleure personne pour évaluer le modèle et formuler des recommandations. C'est pour cette raison qu'OpenAI forme un « groupe consultatif de sécurité interfonctionnel » qui sera au niveau technique, examinera les rapports des chercheurs et formulera des recommandations d'un point de vue plus élevé, dans l'espoir d'y découvrir des « inconnues inconnues ».

Le processus nécessite que ces recommandations soient envoyées à la fois au conseil d'administration et à la direction, qui décideront de poursuivre ou de cesser les activités, mais le conseil d'administration pourra annuler ces décisions. Nous espérons que cela évitera que des produits ou des processus à haut risque soient approuvés à l’insu du conseil d’administration.

Cependant, ce qui inquiète toujours le monde extérieur, c'est que si le groupe d'experts fait des recommandations et que le PDG prend des décisions sur la base de ces informations, le conseil d'administration actuel d'OpenAI se sentira-t-il vraiment habilité à réfuter et à freiner ? S’ils le faisaient, le public extérieur en entendrait-il parler ? À l'heure actuelle, hormis l'engagement d'OpenAI à solliciter des audits tiers indépendants, ses problèmes de transparence ne sont pas vraiment résolus.

Cinq éléments clés du « Readiness Framework » d'OpenAI :

1. Évaluation et notation

Nous effectuerons des évaluations et mettrons continuellement à jour la « carte de pointage » de notre modèle. Nous évaluerons tous les modèles de pointe, y compris deux fois le calcul efficace lors des essais d'entraînement. Nous pousserons le modèle dans ses retranchements. Ces résultats nous aideront à évaluer les risques des modèles de pointe et à mesurer l’efficacité de toutes les mesures d’atténuation proposées. Notre objectif est de détecter les limites spécifiques de l’insécurité afin d’atténuer efficacement le risque d’exposition. Pour suivre le niveau de sécurité de nos modèles, nous produirons des « tableaux de bord » des risques et des rapports détaillés.

Le « tableau de bord » évaluera tous les modèles de pointe.

2. Fixez des seuils de risque

Nous définirons des seuils de risque qui déclenchent des mesures de sécurité. Nous avons défini des seuils de niveau de risque basés sur les catégories de suivi initiales suivantes : cybersécurité, CBRN (menaces chimiques, biologiques, radiologiques, nucléaires), persuasion et autonomie du modèle. Nous spécifions quatre niveaux de risque de sécurité, et seuls les modèles avec un score post-atténuation de « moyen » ou inférieur peuvent être déployés ; seuls les modèles avec un score post-atténuation « élevé » ou inférieur peuvent être développés davantage. Nous mettrons également en œuvre des mesures de sécurité supplémentaires pour les modèles présentant un risque élevé ou grave (pré-atténuation).

Niveau de risque.

3. Mettre en place une nouvelle structure opérationnelle pour superviser le travail technique et la prise de décision en matière de sécurité

Nous établirons une structure opérationnelle avec une équipe dédiée pour superviser le travail technique et les décisions de sécurité. L’équipe de préparation dirigera le travail technique pour examiner les limites des capacités des modèles de pointe, mener des évaluations et synthétiser les rapports. Ce travail technique est essentiel aux décisions concernant le développement et le déploiement du modèle de sécurité OpenAI. Nous créons un groupe consultatif interfonctionnel sur la sécurité pour examiner tous les rapports et les envoyer à la direction et au conseil d'administration. Même si les dirigeants sont les décideurs, le conseil d’administration a le pouvoir d’annuler les décisions.

Nouvelle structure opérationnelle pour superviser les travaux techniques et la prise de décisions en matière de sécurité.

4. Augmenter la sécurité et la responsabilité externe

Nous élaborerons des protocoles pour améliorer la sécurité et la responsabilité externe. L'équipe de préparation effectuera régulièrement des exercices de sécurité pour tester notre entreprise et notre propre culture. Certains problèmes de sécurité peuvent survenir rapidement, nous avons donc la possibilité de signaler les problèmes urgents pour une réponse rapide. Nous avons pensé qu'il serait utile pour ce travail de recevoir des commentaires de personnes extérieures à OpenAI et, espérons-le, de le faire examiner par un tiers indépendant qualifié. Nous continuerons à demander à d'autres de former des équipes rouges et d'évaluer nos modèles, et nous prévoyons de partager les mises à jour en externe.

5. Réduire les autres risques de sécurité connus et inconnus

Nous contribuerons à atténuer d’autres risques de sécurité connus et inconnus. Nous travaillerons en étroite collaboration avec des parties externes ainsi qu'avec des équipes internes telles que les systèmes de sécurité pour suivre les abus dans le monde réel. Nous travaillerons également avec Superalignment pour suivre les risques urgents de désalignement. Nous sommes également pionniers dans de nouvelles recherches qui mesurent l’évolution du risque à mesure que les modèles évoluent pour aider à prédire le risque à l’avance, à l’instar de notre succès antérieur avec la loi d’échelle. Enfin, nous lancerons un processus continu pour tenter de résoudre toute « inconnue » émergente.