Byte lance un nouveau modèle d'interprétation simultanée chinois-anglais : timbre et délai simulés proches du niveau des interprètes simultanés professionnels

Le 24 juillet, Bytedance a officiellement lancé aujourd'hui le modèle d'interprétation simultanée de bout en bout Seed LiveInterpret 2.0. Ce modèle se concentre sur la traduction bidirectionnelle entre le chinois et l'anglais, et sa précision de traduction et sa latence de réponse sont proches du niveau des interprètes simultanés humains professionnels.

Seed LiveInterpret 2.0 est basé sur un cadre de génération et de compréhension de la parole en duplex intégral, qui peut traiter la saisie vocale en temps réel et produire une traduction dans la langue cible presque simultanément.

Le site officiel montre le processus d'utilisation de Seed LiveInterpret 2.0

Le modèle atteint un délai parole-parole moyen de 2 à 3 secondes, a la capacité d'imiter le timbre de différents locuteurs en temps réel pour préserver les caractéristiques d'identité, et prend en charge la compréhension et la traduction du contexte, de l'arrière-plan culturel et des expressions complexes, notamment les virelangues, la poésie et la culture culinaire.

L'évaluation du modèle a montré que dans la tâche d'interprétation simultanée parole-texte, le score de qualité de la traduction chinois-anglais était de 74,8 (sur 100), soit 58 points de pourcentage d'avance sur le système de deuxième place. Dans la tâche de synthèse vocale la plus difficile (soutenue par seulement 3 entreprises du secteur), son score de qualité global a atteint 66,3 points, ce qui est également bien supérieur au système de référence. Dans le même temps, le délai de sortie mot/son initial du modèle dans les scénarios parole-texte et parole-parole n'est que de 2,21 secondes et 2,53 secondes respectivement.