Les chercheurs en intelligence artificielle de Microsoft ont accidentellement exposé des dizaines de téraoctets de données sensibles, notamment des clés privées et des mots de passe, lorsqu'ils ont publié un ensemble de données de formation open source sur GitHub. Dans une note de recherche partagée avec TechCrunch, la startup de sécurité cloud Wiz a déclaré avoir découvert un référentiel GitHub appartenant à l'unité de recherche en intelligence artificielle de Microsoft dans le cadre de ses travaux en cours sur l'exposition accidentelle de données hébergées dans le cloud.
Ce référentiel GitHub fournit du code open source et des modèles d'intelligence artificielle pour la reconnaissance d'images, et il demande aux lecteurs de télécharger le modèle à partir d'une URL de stockage Azure. Cependant, Wiz a découvert que l'URL était configurée pour accorder des autorisations à l'ensemble du compte de stockage, exposant ainsi par erreur davantage de données privées.
Les données comprenaient 38 To d'informations sensibles, notamment des sauvegardes personnelles des PC de deux employés de Microsoft. Les données contenaient également d'autres données personnelles sensibles, notamment des mots de passe et des clés pour les services Microsoft, ainsi que plus de 30 000 messages internes Microsoft Teams provenant de centaines d'employés de Microsoft.
Selon Wiz, les URL qui exposaient ces données à partir de 2020 étaient également mal configurées pour autoriser les autorisations « Contrôle total » au lieu de « Lecture seule », ce qui signifie que toute personne sachant où chercher pouvait potentiellement supprimer, remplacer et injecter du contenu malveillant.
Wiz a souligné que le compte de stockage n'était pas directement exposé. Au lieu de cela, les développeurs de Microsoft AI ont inclus un jeton de signature d'accès partagé (SAS) trop autorisé dans l'URL. Les jetons SAS sont un mécanisme utilisé par Azure pour permettre aux utilisateurs de créer des liens partageables donnant accès aux données du compte de stockage Azure.
Ami Luttwak, co-fondateur et directeur de la technologie de Wiz, a déclaré : « L'intelligence artificielle a libéré un énorme potentiel pour les entreprises technologiques. Cependant, alors que les scientifiques et les ingénieurs des données se précipitent pour mettre en production de nouvelles solutions d'intelligence artificielle, les données massives qu'ils traitent nécessitent des contrôles de sécurité et des mesures de protection supplémentaires.
Wiz a déclaré avoir partagé ses conclusions avec Microsoft le 22 juin, et Microsoft a révoqué les jetons SAS deux jours plus tard, le 24 juin. Microsoft a déclaré avoir terminé son enquête sur l'impact organisationnel potentiel le 16 août.
"Aucune donnée client n'a été exposée et aucun autre service interne n'a été menacé en raison de ce problème", a déclaré Microsoft Security Response dans un article de blog partagé avant la publication.
Microsoft a déclaré que, sur la base des conclusions de Wiz, il a étendu le service d'analyse des secrets de GitHub, qui surveille les modifications apportées à tout le code open source public pour empêcher l'exposition en texte clair des informations d'identification et autres secrets, y compris les jetons SAS susceptibles d'avoir des expirations ou des autorisations excessives.