Google a annoncé le lancement d'un nouveau modèle de synthèse vocale Gemini‑TTS dans sa série Gemini 3.1, qui est officiellement décrit comme « la solution de synthèse vocale la plus expressive à ce jour ». Le nouveau modèle peut générer un discours naturel et haute fidélité tout en permettant aux développeurs de contrôler l'émotion, le rythme et le style de discours via des invites, telles qu'un ajustement précis du ton, des pauses et des changements émotionnels dans la narration ou le dialogue.

En termes de prise en charge multilingue, Gemini‑TTS couvre environ 70 langues, dont le chinois (mandarin), l'anglais, l'espagnol, l'allemand, le japonais et d'autres langues courantes. Le modèle peut détecter automatiquement la langue du texte saisi et générer le discours correspondant sans marquer manuellement le type de langue. Cette fonctionnalité permet aux développeurs et aux entreprises d'utiliser un ensemble unifié d'API pour fournir du contenu vocal multilingue aux utilisateurs du monde entier dans des scénarios tels que des livres audio, des podcasts, des assistants vocaux, des robots de service client et des applications éducatives.

Google a également souligné que Gemini‑TTS collabore avec d'autres modèles audio de la série Gemini 3.1 (tels que Gemini 3.1 Flash Live) pour améliorer encore les capacités de « l'expérience vocale en temps réel ». Dans le dialogue en temps réel, la traduction vocale et l'interaction multimodale, le système peut maintenir une faible latence tout en contrôlant finement la sortie vocale via des invites textuelles et des marqueurs audio, permettant aux agents IA de se rapprocher de l'interaction vocale humaine naturelle dans des scénarios tels que les appels téléphoniques, les réunions et la navigation.