Nightshade « empoisonne » les images pour arrêter la formation de l’IA et aider à protéger Artists

L’une des nombreuses préoccupations concernant l’IA générative est sa capacité à générer des images à partir d’images récupérées sur Internet sans l’autorisation du créateur d’origine. Mais un nouvel outil peut résoudre ce problème en « empoisonnant » les données utilisées pour entraîner le modèle.

MIT Technology Review met en avant un nouvel outil appelé Nightshade créé par des chercheurs de l'Université de Chicago. Il fonctionne en apportant de très petites modifications aux pixels de l'image invisibles à l'œil nu avant de les télécharger. Cela empoisonne les données de formation utilisées par des outils tels que DALL-E, StableDiffusion et Midjourney, provoquant le crash du modèle de manière imprévisible.

Quelques exemples de la façon dont l’IA générative peut interpréter incorrectement les images de personnes empoisonnées par les solanacées incluent la transformation de chiens en chats, de voitures en vaches, de chapeaux en gâteaux et de sacs à main en grille-pain. C'est également idéal pour identifier différents styles artistiques : le cubisme devient anime, les dessins animés deviennent impressionnisme, l'art conceptuel devient abstraction.

Un article récent publié par des chercheurs sur arXiv décrit Nightshade comme une attaque d'empoisonnement spécifique. Au lieu d’empoisonner des millions d’images, Nightshade peut détruire des signaux de diffusion stables avec environ 50 échantillons, comme le montre l’image ci-dessous.

Les chercheurs ont écrit que l'outil pouvait non seulement empoisonner des termes spécifiques tels que «chien», mais pouvait également «infiltrer» des concepts connexes tels que «chiot», «chien» et «husky». Cela affecte même les images indirectement liées ; par exemple, l'empoisonnement de « Fantasy Art » transformera les invites « un dragon », « un château du Seigneur des Anneaux » et « un tableau de Michael Whelan » en quelque chose de différent.

Ben Zhao, professeur à l’Université de Chicago qui a dirigé l’équipe qui a créé Nightshade, a déclaré qu’il espère que l’outil aura un effet dissuasif sur les entreprises d’IA qui ne respectent pas les droits d’auteur et les droits de propriété intellectuelle des artistes. Il a reconnu le potentiel d'utilisation malveillante, mais pour causer de réels dommages à des modèles plus grands et plus puissants, les attaquants devraient empoisonner des milliers d'images, car ces systèmes sont formés sur des milliards d'échantillons de données.

Les entraîneurs de modèles d’IA générative peuvent également utiliser des défenses contre cette pratique, telles que le filtrage des données à perte élevée, l’analyse de fréquence et d’autres méthodes de détection/suppression, mais Ben Zhao a déclaré qu’elles ne sont pas très robustes.

Certaines grandes sociétés d'IA offrent aux artistes la possibilité de ne pas utiliser leur travail dans les ensembles de données de formation à l'IA, mais cela peut être un processus ardu et ne résout pas les travaux qui auraient pu être abandonnés. Beaucoup pensent que les artistes devraient pouvoir adhérer plutôt que de devoir se retirer.