OpenAI a publié aujourd'hui trois nouveaux modèles vocaux en temps réel, visant à « débloquer une nouvelle génération de formulaires d'application vocale » pour les développeurs. Ces trois modèles d'intelligence vocale se concentrent sur différents besoins de scénarios tels que le dialogue raisonné, la traduction et la transcription en temps réel.

Selon les informations publiées par OpenAI, la nouvelle série comprend trois modèles : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Parmi eux, GPT‑Realtime‑2 se positionne comme le premier modèle vocal doté de capacités de raisonnement de niveau GPT‑5, capable de mieux gérer les requêtes complexes et de continuer à faire avancer les conversations de manière plus naturelle. Selon l'introduction officielle, ce modèle est spécialement conçu pour l'interaction vocale en temps réel. Lorsque les utilisateurs posent des questions ou donnent des instructions, ils peuvent raisonner tout en maintenant une conversation cohérente. Dans le même temps, ils peuvent également appeler des outils, gérer les interruptions et les corrections des utilisateurs et apporter des réponses plus appropriées en fonction de la situation actuelle.

Le deuxième modèle, GPT‑Realtime‑Translate, se concentre sur les capacités de traduction en temps réel, prenant en charge « plus de 70 langues d’entrée et 13 langues de sortie » et essayant de suivre la vitesse de parole de l’orateur pendant le processus de traduction. Cette fonctionnalité signifie que dans des scénarios tels que des appels multilingues, des réunions ou des diffusions en direct, ce modèle devrait offrir une expérience plus proche de « l'interprétation simultanée ».

Le troisième GPT‑Realtime‑Whisper est un modèle de transcription vocale en streaming en temps réel qui se concentre sur les capacités de conversion parole-texte à faible latence. OpenAI a déclaré que le modèle peut terminer la transcription instantanément pendant que l'orateur parle, ce qui rend divers produits en temps réel plus rapides, plus réactifs et plus naturels. Des sous-titres en direct « parler tout en parlant » aux enregistrements de réunions capables de suivre le rythme des discussions, de tels scénarios d'application sont considérés comme l'orientation principale de GPT-Realtime-Whisper.

En termes de méthodes d'accès et de prix, OpenAI a déclaré que les trois nouveaux modèles vocaux ont été inclus dans son système API en temps réel. GPT‑Realtime‑2 coûte 32 $ pour 1 million de jetons d'entrée audio (0,40 $ pour les jetons d'entrée mis en cache) et 64 $ pour 1 million de jetons de sortie audio. GPT‑Realtime‑Translate est au prix de 0,034 $ par minute, tandis que GPT‑Realtime‑Whisper est au prix de 0,017 $ par minute.

OpenAI indique que les développeurs peuvent tester directement ces nouveaux modèles vocaux en temps réel via Playground. Si Codex est déjà installé, cliquez simplement sur Soumettre à l'invite désignée pour ajouter GPT‑Realtime‑2 à une application existante ou créez rapidement une nouvelle application basée sur le modèle. Le responsable a également présenté les détails techniques de ces trois modèles vocaux sur son site Web, ainsi que la manière dont certaines sociétés partenaires les ont utilisés dans des produits réels.

Dans le contexte d'une IA générative qui continue d'évoluer vers la multimodalité et l'interaction en temps réel, les trois modèles vocaux publiés par OpenAI sont considérés comme une autre disposition importante dans le sens de « l'intelligence vocale ». Grâce à l’intégration unifiée des capacités de raisonnement, de traduction et de transcription, les développeurs seront en mesure de fournir plus facilement aux utilisateurs une expérience d’IA vocale « disponible en un clin d’œil ». Des outils d'assistance aux applications de productivité, en passant par les services de création de contenu et d'accessibilité, il devrait inaugurer un nouveau cycle d'exploration et d'innovation.