Selon les médias,OpenAI développe un nouveau modèle vocal conçu pour rendre les conversations des utilisateurs avec ChatGPT plus naturelles et plus fluides. La principale avancée de cette technologie est que lorsque l'utilisateur interrompt le système pendant que l'IA parle, l'IA peut ajuster la réponse en temps réel au lieu de s'arrêter soudainement comme c'est le cas actuellement.

Actuellement, le mode vocal avancé de ChatGPT utilise un mécanisme de dialogue au tour par tour. L'utilisateur doit finir de parler avant que l'IA traite la voix et génère une réponse. Si l'utilisateur insère une réponse courte telle que « ok » ou « mm-hm » lorsque l'IA parle, le système s'arrêtera généralement directement et ne pourra pas continuer la communication comme une conversation normale.
Pour résoudre ce problème,Le BiDi (modèle vocal bidirectionnel) développé par OpenAI traite en permanence la parole du locuteur, de sorte qu'il puisse immédiatement ajuster sa réponse en cas d'interruption.En revanche, une fois que les modèles vocaux existants commencent à générer des réponses, le contenu de sortie est fondamentalement fixe et ne peut pas changer en fonction de nouvelles entrées.
Cette technologie est encore en phase de développement. Selon des personnes proches du dossier, le modèle prototype était sujet à des problèmes et émettait parfois même des sons peu naturels après plusieurs minutes de conversation soutenue. Les chercheurs d'OpenAI espéraient initialement publier BiDi au premier trimestre de cette année, mais la dernière version pourrait être reportée au deuxième trimestre ou plus tard.
OpenAI estime que si le modèle vocal peut s'approcher du modèle textuel en termes de performances, la portée de l'utilisation de l'IA sera encore élargie, car la plupart des gens sont plus habitués à la communication vocale avec l'IA qu'à la saisie de texte. Le modèle BiDi peut être particulièrement utile dans les scénarios de service client.
Par exemple, lorsqu'un client parle au service client IA d'un détaillant, si le client décide temporairement d'échanger le produit au lieu de le rendre au cours de la conversation, le modèle BiDi peut théoriquement permettre au service client IA d'ajuster la conversation en douceur sans arrêts brusques ni confusion.
Des personnes proches du dossier ont également révélé que le modèle BiDi est également plus flexible dans l'appel d'outils et d'applications externes.OpenAI a précédemment déclaré que la société prévoyait d'améliorer le modèle vocal d'un futur appareil d'IA qui interagit principalement par la voix, et envisageait de développer un haut-parleur intelligent capable de consulter ses e-mails ou de réserver des services via des commandes vocales.