YouTube introduit la fonction de synchronisation labiale AI pour améliorer le naturel du doublage automatique videos

Google a annoncé lors de l'événement « Made on YouTube » de ce mois-ci que la technologie de doublage automatique de YouTube a inauguré une nouvelle mise à niveau : l'introduction de la fonction de synchronisation labiale IA (lip-sync), qui vise à résoudre le problème de longue date de « désynchronisation entre le son et l'image » dans le contenu vidéo traduit automatiquement. La fonctionnalité sera d'abord déployée en 20 langues, dont l'anglais, l'allemand, le français et l'espagnol, et d'autres langues suivront dans les mois à venir.

Il est rapporté que le doublage et la traduction automatique de YouTube ont été controversés en raison de la reproduction automatique des titres vidéo et des pistes audio. De nombreux utilisateurs espèrent disposer d'une option unifiée pour désactiver cette traduction et ce doublage automatiques. Les utilisateurs multilingues et les créateurs de Bilibili ont signalé que la qualité des traductions générées par l'IA est inégale par rapport aux traductions humaines. Actuellement, YouTube ne propose pas la fonction de désactivation du doublage à l'échelle mondiale. Les utilisateurs doivent ajuster manuellement la piste audio vidéo par vidéo. Cela a également incité certains développeurs à lancer des plug-ins de navigateur tels que « YouTube Anti-Translate » pour bloquer spécifiquement les couches de traduction et de doublage automatiques.

L'avancée clé de cette mise à jour est que la fonction de synchronisation labiale AI peut utiliser la technologie de l'intelligence artificielle pour aligner parfaitement la piste audio générée automatiquement avec la forme de la bouche des personnages de la vidéo, améliorant considérablement l'apparence et la sensation et obtenant une expérience vidéo plus fluide et plus naturelle. Les créateurs peuvent choisir d'activer la fonction de doublage lip sync via YouTube Studio. Le premier pilote est ouvert aux membres du Programme Partenaire YouTube, et Google devrait l'étendre à toutes les vidéos à l'avenir.

En termes de doublage multilingue, YouTube s'appuie sur des modèles d'IA auto-développés (notamment Gemini et Aloud) pour générer des pistes audio multilingues, qui non seulement restituent l'émotion et l'intonation de la voix originale du locuteur, mais séparent également les sons de fond et les voix humaines. Selon Google, après que certaines chaînes ont activé le doublage multilingue, le nombre de téléspectateurs non natifs a triplé, démontrant un fort potentiel de croissance.

Bien que la technologie de doublage automatique IA et de synchronisation labiale joue un rôle important dans l'élargissement de l'audience des créateurs et des revenus publicitaires, il existe encore de nombreuses controverses quant à savoir si cela affectera l'authenticité du contenu original et l'expérience du public. Les partisans estiment que cette décision facilite la visualisation d'un public mondial et renforce l'influence du contenu ; tandis que les critiques craignent que l’automatisation ne nuise au style unique de l’œuvre originale. Quant à savoir si la synchronisation labiale de l’IA peut complètement combler le fossé entre l’idéal et la réalité, l’industrie continue d’en observer l’impact.