Lundi soir, heure de Pékin, OpenAI, une startup bien connue dans le domaine de l'intelligence artificielle, a publié un rapport intitulé «
(Source : OpenAI)
ChatGPT a précédemment lancé une fonction « interprète de code » qui peut télécharger des images et dispose de certaines capacités préliminaires pour traiter les images et les photos textuelles. Mais il ne fait aucun doute qu’aujourd’hui, « prendre des photos et poser des questions » est plus proche des scénarios d’utilisation de l’assistant IA de la plupart des utilisateurs.
Par ordre de titre, deux fonctionnalités principales sont mises à jour aujourd'hui :
Parlons d’abord de la fonction de chat photo qui a attiré beaucoup d’attention. Selon OpenAI, les utilisateurs peuvent désormais
Dans l'exemple officiel, ChatGPT reçoit un
Puis le fonctionnaire a fait semblant de ne pas comprendre et a pris une photo du verrou.
Ensuite, le responsable a pris une autre photo de la boîte à outils et a demandé à ChatGPT de quelle clé il s'agissait. ChatGPT a également reconnu avec succès la clé et a demandé à l'utilisateur exactement quelle taille prendre.
De plus, OpenAI intègre également des fonctions de reconnaissance vocale, de transcription et de génération audio et lance
Selon OpenAI, cette fonctionnalité utilise le système de reconnaissance vocale open source Whisper pour transcrire ce que dit l'utilisateur en texte. Il utilise également un nouveau modèle de synthèse vocale et travaille avec des comédiens professionnels pour fournir 5 voix parmi lesquelles les utilisateurs peuvent choisir.
OpenAI affirme que sa nouvelle technologie vocale est capable de créer des voix synthétiques réalistes à partir de quelques secondes seulement de parole réelle. Cette capacité ouvre la porte à la créativité, mais crée également de nouveaux risques, comme la possibilité que des criminels usurpent l'identité de personnalités publiques pour commettre une fraude. La décision d’OpenAI est donc de lancer cette fonctionnalité à travers des cas d’usage spécifiques comme le « chat vocal ».
Dans le même temps, OpenAI coopère également avec davantage d’institutions. Par exemple
Les images posent également de nouveaux défis, tels que des problèmes d’hallucinations et le fait que les utilisateurs dépendent de l’interprétation modèle des images dans les zones à haut risque. Par conséquent, avant de se mettre en ligne, OpenAI a également effectué des tests de risques dans des domaines tels que l'extrémisme et les capacités scientifiques.
De plus, pour les lecteurs chinois qui lisent cet article, l'expérience du dialogue illustré vaut probablement la peine d'être attendue, mais le dialogue vocal devra peut-être être écarté. OpenAI a dit :