OpenAI annonce déployer un nouveau système pour surveiller ses derniers modèles d'inférence d'IAo3 et o4-mini pour détecter les signaux associés aux menaces biologiques et chimiques.Selon le rapport de sécurité d'OpenAI, un système conçu pour empêcher ces modèles de fournir des recommandations qui pourraient inciter quelqu'un à mener des attaques potentiellement dangereuses.
OpenAI a déclaré que les performances des O3 et o4-mini ont été considérablement améliorées par rapport aux modèles précédents, introduisant ainsi de nouveaux risques pour les attaquants malveillants. Selon les critères internes d'OpenAI, o3 est plus compétent pour répondre à des types spécifiques de questions liées aux menaces biologiques. Pour cette raison, et pour réduire d'autres risques, OpenAI a créé un nouveau système de surveillance, que la société décrit comme un « moniteur d'inférence axé sur la sécurité ».
Le moniteur fonctionne sur o3 et o4-mini et est personnalisé pour raisonner sur les politiques de contenu d'OpenAI. Il est conçu pour identifier les indices liés aux risques biologiques et chimiques et demander au modèle de rejeter les recommandations sur ces sujets.
Pour établir une base de référence, OpenAI a demandé aux membres de l'équipe rouge de passer environ 1 000 heures à signaler les conversations « dangereuses » liées au risque biologique dans o3 et o4-mini. OpenAI a déclaré que lors d'un test simulant la « logique de blocage » de ses moniteurs de sécurité, les modèles ont refusé de répondre aux invites à risque dans 98,7 % des cas.
OpenAI a reconnu que ses tests n'ont pas pris en compte les personnes susceptibles d'essayer de nouvelles invites après avoir été bloquées par un moniteur, c'est pourquoi la société a déclaré qu'elle continuerait à s'appuyer en partie sur la surveillance humaine.
OpenAI a déclaré que O3 et o4-mini ne dépassaient pas le seuil de « risque élevé » pour le risque biologique fixé par OpenAI. Cependant, OpenAI affirme que les versions antérieures de o3 et o4-mini sont plus utiles pour répondre aux questions sur le développement d'armes biologiques que o1 et GPT-4.

Schéma des cartes système o3 et o4-mini (Capture d'écran : OpenAI)
Selon le cadre de prévention récemment mis à jour d'OpenAI, la société suit activement la manière dont ses modèles permettent aux utilisateurs malveillants de développer plus facilement des menaces chimiques et biologiques.
OpenAI s'appuie de plus en plus sur des systèmes automatisés pour réduire les risques de ses modèles. Par exemple, pour empêcher le générateur d'images natif de GPT-4o de créer du contenu d'abus sexuels sur des enfants (CSAM), OpenAI a déclaré utiliser un moniteur d'inférence similaire à celui que la société a déployé pour o3 et o4-mini.
Cependant, certains chercheurs craignent qu’OpenAI ne mette pas la sécurité là où elle devrait être. Metr, l'un des partenaires de l'équipe rouge de la société, a déclaré avoir eu peu de temps pour évaluer les tromperies d'o3. Pendant ce temps, OpenAI a décidé de ne pas publier de rapport de sécurité sur le modèle GPT-4.1 publié plus tôt cette semaine.