OpenAI publie un nouveau modèle de pondération ouvert pour garantir la sécurité de l'IA

OpenAI a annoncé aujourd'hui le lancement de deux nouveaux modèles de poids ouverts pour le domaine de la sécurité de l'IA - gpt-oss-safeguard-120b et gpt-oss-safeguard-20b. Ces modèles de classification de sécurité sont optimisés sur la base de la série de modèles ouverts gpt-oss publiée précédemment et sont également ouverts sous la licence Apache 2.0, permettant à quiconque de les utiliser, de les modifier et de les déployer librement.

La principale caractéristique du nouveau modèle est qu'il offre aux développeurs la possibilité d'effectuer des inférences et des classifications directement basées sur des politiques de sécurité personnalisées, abandonnant ainsi le système de sécurité « taille unique ». Les développeurs peuvent saisir leurs propres politiques de sécurité et le contenu à détecter lors de l'inférence, et le modèle classera en fonction des politiques et donnera des raisons de raisonnement. Les politiques peuvent être modifiées au fur et à mesure de leur utilisation et peuvent être ajustées de manière flexible pour améliorer les performances. gpt-oss-safeguard peut classer les messages des utilisateurs, les réponses au chat et même terminer les conversations.

OpenAI souligne que ce nouveau type de modèle est particulièrement adapté aux situations suivantes :

Des dangers potentiels émergent ou évoluent, et les politiques doivent s’adapter rapidement ;
Certaines zones sont très granulaires et difficiles à gérer pour les petits classificateurs traditionnels ;
Les développeurs manquent d'un grand nombre d'échantillons de haute qualité et ont des difficultés à former des classificateurs de haut niveau pour divers risques sur la plateforme ;
La qualité et l’interprétabilité des résultats de classification ont la priorité sur les performances retardées.

Il convient de noter que gpt-oss-safeguard présente également certaines limites. OpenAI a déclaré que si la plate-forme dispose d'un grand nombre d'échantillons étiquetés et peut former des classificateurs traditionnels, ces derniers peuvent toujours être meilleurs que gpt-oss-safeguard dans des scénarios complexes ou à haut risque, et le modèle personnalisé sera plus précis. De plus, ce nouveau modèle présente une vitesse de traitement lente et une consommation de ressources importante, ce qui le rend inadapté au dépistage en temps réel de contenus à grande échelle.

Actuellement, gpt-oss-safeguard-120b et gpt-oss-safeguard-20b sont disponibles en téléchargement gratuit :

https://huggingface.co/collections/openai/gpt-oss-safeguard