Récemment, Google a officiellement révéléSon modèle d'IA phare, Gemini, souffre d'attaques de distillation à grande échelle motivées par la commercialisation, incitant les chatbots à divulguer des mécanismes internes par le biais de questions répétées.. Google a déclaré que l'attaquant avait envoyé systématiquement et à plusieurs reprises des mots d'invite soigneusement conçus au modèle (plus de 100 000 fois en une seule attaque) dans le but de procéder à une ingénierie inverse de la logique de raisonnement interne et du mécanisme de prise de décision de Gemini afin de réaliser le clonage du modèle ou de renforcer son propre système d'IA.
Ces attaques sont principalement menées par des « acteurs motivés par des motivations commerciales »,Google a estimé que les personnes derrière ce projet étaient pour la plupart des sociétés privées d’IA ou des instituts de recherche espérant obtenir un avantage concurrentiel. Un porte-parole de l'entreprise a déclaré que la source de l'attaque provenait de plusieurs régions du monde, mais n'a pas divulgué plus d'informations..
Il est rapporté que l'attaque par distillation (également connue sous le nom de distillation des connaissances) est à l'origine une technologie de compression de modèles qui permet d'alléger le modèle en migrant les connaissances d'un grand « modèle d'enseignant » vers un petit « modèle d'étudiant ».
L'attaquant collecte les réponses du modèle dans différents scénarios au moyen de questions massives systématiques et structurées, analyse les différences subtiles telles que le contenu des réponses, le délai et la confiance, et construit la limite de décision et la carte du chemin de raisonnement de Gemini.Enfin, les données de réponse collectées sont utilisées pour former son propre « modèle d'étudiant » afin de reproduire les capacités de base de Gemini..
Google a déclaré que de telles attaques par distillation constituent un vol de propriété intellectuelle, bien que les principaux fabricants aient déployé des mécanismes capables d'identifier et de bloquer les attaques par distillation.Mais comme les services traditionnels à grande échelle sont ouverts à tous, ils restent intrinsèquement vulnérables..
