DeepL, une société d'IA célèbre pour ses outils de traduction de texte, a lancé aujourd'hui une gamme de produits de traduction parole-parole pour entrer sur le marché de la traduction vocale en temps réel, couvrant une variété de scénarios tels que les réunions en ligne, les conversations mobiles et Web et la communication de groupe impliquant des employés de première ligne via des applications personnalisées. Dans le même temps, DeepL a également lancé une API destinée aux développeurs et aux entreprises afin de prendre en charge des solutions de traduction vocale personnalisées pour les centres d'appels et autres entreprises basées sur sa technologie.

Le PDG de DeepL, Jarek Kutylowski, a déclaré dans une interview qu'après des années consacrées à la traduction de textes, la parole était la « prochaine étape naturelle » de l'entreprise. Il a souligné que DeepL a parcouru un long chemin dans le domaine de la traduction de textes et de documents, mais que dans le domaine de la traduction vocale en temps réel, « il manque encore un produit vraiment exceptionnel », c'est pourquoi l'entreprise a décidé de s'y lancer.
Kutlovsky a souligné que la principale difficulté dans la création d'un produit de traduction en temps réel est de savoir comment trouver un équilibre entre la réduction de la latence et le maintien de la précision. Le soi-disant délai fait référence à la différence de temps entre le moment où l'utilisateur parle et le moment où la voix traduite est jouée. Dans les scénarios de conférence et de dialogue, plus la différence est petite, plus l'expérience de communication de l'utilisateur est proche du « dialogue simultané ».
Dans cette version, DeepL lance des plug-ins pour Zoom et Microsoft Teams, permettant aux auditeurs lors de réunions à distance d'écouter toutes les parties s'exprimant dans leur langue maternelle, d'entendre des voix traduites en temps réel ou de lire des sous-titres traduits en temps réel à l'écran. Le programme en est encore aux premiers tests et DeepL invite les entreprises à s'inscrire sur une liste d'attente pour être les premières à essayer la fonctionnalité. En outre, la société propose également des produits de conversation pour les terminaux mobiles et les pages Web, permettant aux utilisateurs de communiquer dans plusieurs langues, en personne ou à distance.
Pour les scénarios de groupe multi-personnes hors ligne ou en ligne tels que les formations et les séminaires, DeepL permet aux participants de rejoindre la même session en scannant le code QR, et chacun peut recevoir le contenu traduit dans la langue correspondante sur son propre appareil. DeepL a déclaré que sa technologie de synthèse vocale peut également apprendre et adapter un vocabulaire personnalisé, tel que les termes de l'industrie verticale, les noms d'entreprise et les noms de personnes, pour améliorer son utilisation dans des scénarios professionnels.
Kutlovsky estime que l’IA va remodeler le secteur du service client au cours des prochaines années. Une couche de traduction de haute qualité peut aider les entreprises à continuer de fournir des services multilingues sur un marché où les talents linguistiques locaux font défaut et où les coûts de recrutement sont élevés. Dans le cadre de cette vision, DeepL espère que sa technologie vocale servira non seulement aux scénarios de conférence, mais deviendra également l'une des infrastructures linguistiques de base pour les centres de service client et les entreprises mondiales.
Concernant la feuille de route technique, DeepL a déclaré que ses produits actuels sont pilotés par une pile technologique complète de « parole à parole » auto-développée, mais à ce stade, il utilise toujours le processus en trois étapes « parole en texte – traduction de texte – texte en parole ». L'entreprise estime que son orientation à long terme vers la traduction de textes lui confère un avantage en termes de qualité globale de traduction. À l’avenir, DeepL prévoit de développer un modèle de traduction vocale de bout en bout qui omet les étapes intermédiaires du texte afin d’améliorer encore la latence et le naturel.
Dans le domaine de la parole et de la traduction, DeepL fait face à la concurrence de plusieurs startups. Parmi eux, Sanas a levé 65 millions de dollars auprès de Quadrille Capital et Teleperformance l'année dernière. Il se concentre sur une technologie qui modifie l'accent des locuteurs en temps réel, principalement pour les agents des centres d'appels. Camb.AI, dont le siège est à Dubaï, fournit des services de synthèse vocale et de traduction aux entreprises de médias et de divertissement, aidant ainsi ses clients à réaliser le doublage et la localisation de contenus à grande échelle. Palabra, investi par le fonds Seven Seven Six du co-fondateur de Reddit, Alexis Ohanian, construit un moteur de traduction vocale en temps réel qui met l'accent sur la conservation des caractéristiques vocales originales du locuteur pendant le processus de traduction, formant ainsi une relation concurrentielle plus directe avec les capacités construites par DeepL.
Après avoir pris pied sur le marché de la traduction de texte, DeepL tente d'élargir ses frontières grâce aux produits vocaux, en étendant la technologie à la collaboration lors de conférences, au service client et aux scénarios opérationnels de première ligne. Alors que de plus en plus d’entreprises cherchent à utiliser l’IA pour réduire les coûts de communication multilingue, la traduction vocale en temps réel devrait devenir le centre d’une nouvelle concurrence, et DeepL accélère son déploiement dans ce domaine.