Lundi soir, heure de Pékin, OpenAI, une startup bien connue dans le domaine de l'intelligence artificielle, a publié un rapport intitulé «"ChatGPT peut désormais voir, écouter et parler", annonçant que cette fonctionnalité sera proposée aux utilisateurs payants dans les deux prochaines semaines. Lors de la conférence de presse GPT-4 en mars de cette année, la scène la plus choquante devrait être que Greg Brockman, le président d'OpenAI, a pris un morceau de papier brouillon et a dessiné un croquis, a pris une photo et a laissé GPT-4 générer le code de ce site Web en 10 secondes.


(Source : OpenAI)

ChatGPT a précédemment lancé une fonction « interprète de code » qui peut télécharger des images et dispose de certaines capacités préliminaires pour traiter les images et les photos textuelles. Mais il ne fait aucun doute qu’aujourd’hui, « prendre des photos et poser des questions » est plus proche des scénarios d’utilisation de l’assistant IA de la plupart des utilisateurs.

Prends une photo du réfrigérateur et dis-toi quoi manger ce soir

Par ordre de titre, deux fonctionnalités principales sont mises à jour aujourd'hui :Conversations basées sur des images et conversations vocales en temps réel.

Parlons d’abord de la fonction de chat photo qui a attiré beaucoup d’attention. Selon OpenAI, les utilisateurs peuvent désormaisPrenez une photo de votre réfrigérateur et laissez ChatGPT vous recommander des recettes ; en voyagePrenez une photo d'un point de repère et laissez ChatGPT vous dire ce qui est intéressant à propos de cet endroit. Bien sûr, vous pouvez également prendre une photo d'un problème mathématique et laisser ChatGPT y répondre.

Dans l'exemple officiel, ChatGPT reçoit unUne photo du vélo et demandé comment ça s'est passéSiège baissé. Ensuite, ChatGPT a dit que cela dépend du modèle de votre voiture. Certaines voitures ont des tiges à dégagement rapide, et certaines sont fixées avec des boulons, puis donnent des étapes détaillées.


Puis le fonctionnaire a fait semblant de ne pas comprendre et a pris une photo du verrou.Il l'a encerclé avec l'outil de dessin officiel pour mettre l'accent, puis a demandé à ChatGPT s'il s'agissait d'un levier à dégagement rapide. ChatGPT a ditIl s'agit d'un boulon, vous devez donc trouver une clé Allen.


Ensuite, le responsable a pris une autre photo de la boîte à outils et a demandé à ChatGPT de quelle clé il s'agissait. ChatGPT a également reconnu avec succès la clé et a demandé à l'utilisateur exactement quelle taille prendre.


ChatGPT peut parler !

De plus, OpenAI intègre également des fonctions de reconnaissance vocale, de transcription et de génération audio et lanceFonction de chat vocal AI, cette fonction est uniquement disponible pour les clients iOS et Android. Les responsables ont déclaré que les utilisateurs peuvent utiliser cette fonction pour raconter des histoires aux enfants à la maison avant d'aller au lit. Ou lorsque vous prenez un repas à la maison et que vous vous disputez soudainement sur un certain problème, vous pouvez mettre ChatGPT sur le bureau pour résoudre la dispute.


Selon OpenAI, cette fonctionnalité utilise le système de reconnaissance vocale open source Whisper pour transcrire ce que dit l'utilisateur en texte. Il utilise également un nouveau modèle de synthèse vocale et travaille avec des comédiens professionnels pour fournir 5 voix parmi lesquelles les utilisateurs peuvent choisir.

Une IA plus avancée présente également de nouveaux risques et limites

OpenAI affirme que sa nouvelle technologie vocale est capable de créer des voix synthétiques réalistes à partir de quelques secondes seulement de parole réelle. Cette capacité ouvre la porte à la créativité, mais crée également de nouveaux risques, comme la possibilité que des criminels usurpent l'identité de personnalités publiques pour commettre une fraude. La décision d’OpenAI est donc de lancer cette fonctionnalité à travers des cas d’usage spécifiques comme le « chat vocal ».

Dans le même temps, OpenAI coopère également avec davantage d’institutions. Par exempleLa société de streaming Spotify teste cette fonctionnalité pour la traduction vocale, aidant ainsi les hébergeurs de podcasts à étendre leur portée mondiale en utilisant leur voix pour traduire l'audio des podcasts dans d'autres langues.

Les images posent également de nouveaux défis, tels que des problèmes d’hallucinations et le fait que les utilisateurs dépendent de l’interprétation modèle des images dans les zones à haut risque. Par conséquent, avant de se mettre en ligne, OpenAI a également effectué des tests de risques dans des domaines tels que l'extrémisme et les capacités scientifiques.

De plus, pour les lecteurs chinois qui lisent cet article, l'expérience du dialogue illustré vaut probablement la peine d'être attendue, mais le dialogue vocal devra peut-être être écarté. OpenAI a dit :Le modèle est efficace pour transcrire du texte anglais, mais fonctionne mal dans certaines autres langues, en particulier celles utilisant des alphabets non romains, et il est conseillé aux utilisateurs non anglophones de ne pas utiliser ChatGPT à de telles fins.