Des experts ont récemment averti que la technologie de contrefaçon profonde de voix en temps réel a mûri et entraîne de nouveaux risques pour la sécurité des réseaux. Avec la disponibilité généralisée d'outils d'IA open source et de matériel abordable, les attaquants peuvent utiliser l'intelligence artificielle pour déguiser et imiter la voix de n'importe qui dans des conversations en temps réel, dépassant ainsi les limitations techniques précédentes qui ne pouvaient gérer que du contenu préenregistré ou nécessitaient de longs temps de traitement.

Une nouvelle étude de la société de cybersécurité NCC Group montre qu'en combinant un modèle vocal IA avec un ordinateur portable ou un smartphone ordinaire, une imitation vocale en temps réel de haute qualité peut être obtenue avec seulement une demi-seconde de retard. Les opérateurs peuvent lancer le clonage vocal sur une interface Web personnalisée avec des opérations simples. Cette méthode d'attaque de « deepfake voice phishing » peut être complétée par une carte graphique de configuration inférieure, et même le microphone d'un appareil ordinaire peut être utilisé pour obtenir des effets suffisamment réalistes.
La technologie précédente de contrefaçon profonde de voix nécessite généralement beaucoup de temps pour former les données vocales, ne peut générer que des clips préenregistrés et n'est pas adaptée à une interaction en temps réel. Cette avancée élimine complètement les pauses et les absences de réponse dans le processus d'imitation de la voix, améliorant considérablement l'efficacité des attaques et la dissimulation. Les consultants en sécurité du groupe NCC ont découvert lors de tests réels que, lorsqu'il est combiné à l'usurpation d'identité de l'appelant, ce type d'attaque peut tromper la cible presque à chaque fois, et le risque d'usurpation d'identité par vérification vocale du téléphone augmente considérablement.
Bien que la falsification profonde de la voix en temps réel devienne de plus en plus réaliste, il existe toujours des obstacles techniques au même niveau de falsification profonde de la vidéo en temps réel, tels que les expressions faciales et la voix désynchronisées, qui sont faciles à détecter. Par exemple, des experts ont déclaré qu'une entreprise avait même été fraudée par de fausses vidéos d'IA et avait envoyé des ordinateurs portables à la mauvaise adresse, démontrant que les appels audio et vidéo à eux seuls ne peuvent plus garantir la sécurité de la vérification d'identité.
À mesure que les outils d’intelligence artificielle deviennent plus populaires, les experts réclament des méthodes de vérification à distance plus sophistiquées, telles que l’ajout de signaux structurés uniques ou de codes secrets aux communications, afin de prévenir les attaques d’ingénierie sociale provoquées par les deepfakes. Dans le cas contraire, les individus et les organisations seront confrontés à un risque plus élevé de fraude par contrefaçon d’IA.