Google a publié aujourd'hui une nouvelle famille de modèles de traduction open source, TranslateGemma, basée sur son dernier modèle de pondération open source Gemma 3, officiellement qualifié d'« étape importante dans l'ouverture du domaine de la traduction ». Le premier lot prend en charge jusqu'à 55 langues, couvrant les langues courantes telles que l'espagnol, le français, le chinois et l'hindi.

Le timing de cette sortie suit de près la dynamique des concurrents : il y a quelques heures à peine, OpenAI venait de lancer l'outil ChatGPT Translate, axé sur le contrôle du ton et du contexte. Grâce à une interface à deux colonnes et à la reconnaissance automatique des langues, il tente de défier les services de traduction traditionnels tels que Google Translate en termes d'expérience utilisateur et de compréhension du contexte. En revanche, TranslateGemma met davantage l'accent sur les capacités du modèle ouvert et la qualité globale de la traduction sur plusieurs critères.

La famille TranslateGemma est actuellement disponible en trois tailles : 4 milliards, 12 milliards et 27 milliards de paramètres. Les résultats d'évaluation fournis par Google montrent que sur le benchmark WMT24++, TranslateGemma 12B a surpassé la version de base de Gemma 3 27B, ce qui signifie qu'avec moins de la moitié du nombre de paramètres, il peut atteindre un débit plus élevé et une latence plus faible, tout en maintenant ou même en améliorant la précision de la traduction, ce qui est bénéfique pour les développeurs lorsqu'ils déploient des modèles de traduction de haute qualité dans des environnements à puissance de calcul limitée.

En termes de scénarios de déploiement, Google a déclaré que le modèle 4B est optimisé pour l'inférence mobile et convient pour une exécution locale sur des terminaux tels que les téléphones mobiles ; le modèle 12B est orienté vers des scénarios de puissance de calcul locaux tels que les ordinateurs portables grand public ; et le modèle 27B nécessite une prise en charge plus puissante de la puissance de calcul, comme le NVIDIA H100 à carte unique cloud et d'autres configurations. Sur le benchmark de traduction d'images Vistra, TranslateGemma a également obtenu de meilleurs résultats sur la tâche de traduction de texte intra-image, même s'il n'a pas été spécifiquement adapté à ce scénario, démontrant le potentiel du modèle pour la compréhension multimodale de texte.

Google a révélé que l'amélioration des performances de TranslateGemma provenait d'un processus de formation en deux étapes. La première étape est la mise au point supervisée. L'équipe de recherche a introduit une grande quantité de corpus de traduction humaine au-dessus du modèle de base Gemma 3 et l'a combiné avec des données synthétiques de haute qualité générées par le modèle Gemini pour la formation. La deuxième étape utilise l'apprentissage par renforcement pour guider l'optimisation de la qualité de la traduction grâce à un ensemble de modèles de récompense, notamment MetricX-QE, AutoMQM et d'autres indicateurs avancés, rendant le modèle plus naturel et contextuellement adapté à la traduction.

Actuellement, la gamme complète des modèles TranslateGemma est disponible en téléchargement sur les plateformes Kaggle et Hugging Face pour que les chercheurs et les développeurs puissent librement expérimenter et développer. Alors qu'OpenAI intègre davantage la traduction dans les produits frontaux basés sur le chat, Google propose davantage d'options techniques pour la construction d'applications tierces en ouvrant des modèles sous-jacents hautes performances, ce qui indique également que la piste de traduction automatique intensifiera la concurrence aux deux niveaux des modèles ouverts et des outils orientés services.

Articles connexes :

ChatGPT Translate est en ligne : OpenAI lance une nouvelle série de défis pour Google Translate