Offrez-vous des vacances. ChatGPT se met à jour si rapidement et l’imagination des internautes ne peut pas suivre. Lundi, ChatGPT a annoncé une mise à jour majeure avec des fonctionnalités multimodales complètes. À l'avenir, si vous sentez qu'il y a un problème avec le vélo en rentrant du travail sur un vélo partagé, vous pourrez prendre une photo de la pièce et demander directement.
Ensuite, vous rentrez chez vous et regardez votre collection de réfrigérateurs désemparés, et ChatGPT peut vous dire quels articles choisir pour le dîner.
Après avoir mangé et vous être couché, si vous n'avez toujours pas sommeil, il peut également vous fournir certains services ASMR, si vous en avez assez d'entendre ces blogueurs sur Bilibili ou YouTube.
En septembre 1985, Calvino, l'auteur des "Villes invisibles", meurt subitement d'un accident vasculaire cérébral. Au cours de l’été de cette année, il a demandé l’aide d’un médecin en raison de maux de tête. Le chirurgien a déclaré qu'il n'avait jamais vu un cerveau aussi complexe et délicat.
ChatGPT a commencé comme un cerveau incroyablement beau et invisible, mais il a enfin des yeux, des oreilles et une bouche.
Internautes du monde entier : Allez, faisons des gestes.
Source : Twitter
Quelqu'un l'a essayé, et il peut essentiellement développer des projets logiciels pour d'autres.
La naissance d'un projet logiciel se déroule à peu près comme ceci : d'abord dessiner un wireframe sur le tableau blanc, trier la logique d'agencement, puis commencer à écrire du code, et enfin générer l'interface. Maintenant, dans cette affaire, le travail sur le tableau blanc vous appartient, et laisser le tableau blanc lui appartient.
Un développeur a pris une photo de son wireframe et l'a envoyée à ChatGPT, qui a écrit le logiciel directement.
Il a également joué quelques petits tours, comme remplacer la position de l'arrangement par des flèches irrégulières. ChatGPT l'a non seulement vu, mais l'a également accepté.
Nous sous-estimons probablement encore ce que la multimodalité apportera.
Le développement de l’intelligence artificielle et de l’intelligence humaine est ici opposé. Les êtres humains ont d’abord des yeux, et après avoir vu le monde, ils forment un langage et une logique qui, à leur tour, peuvent mieux décrire et comprendre le monde qu’ils voient. L’amélioration de l’intelligence humaine au cours des 6 derniers millions d’années est devenue un four géant d’apprentissage automatique.
Quant à ChatGPT, il possède déjà le meilleur niveau d’intelligence et peut comprendre beaucoup de choses. Ce qui le limite, c'est la compression des informations par texte, qui le rend incapable d'accéder à des problèmes plus complexes. Que se passe-t-il lorsque vous donnez une paire d’yeux à un tel cerveau ? C'est-à-dire qu'il est permis de voir directement les informations de l'image et que la capacité de démonter les problèmes commence à exploser.
Quelqu'un a fourni à ChatGPT un schéma d'interface d'un logiciel SaaS et lui a demandé de le décomposer en petits composants et d'écrire tout le code, ce qu'il a fait.
Vous pouvez même lui donner une capture d'écran grossière de l'interface d'édition de Unity et lui demander de fournir un processus pour ajouter des actions de modèle.
Source : Twitter
Après avoir ouvert les capacités multimodales, les capacités de compréhension et de raisonnement de ChatGPT sont devenues plus intuitives, voire un peu effrayantes.
Accordez-vous une minute et voyez si vous pouvez comprendre la signification de cette série d’images :
Source : Twitter
Voici l’interprétation de ChatGPT :
Source : Twitter
"Cet ensemble de bandes dessinées semble souligner l'importance de la communication, de la compréhension et de l'alignement au sein d'une équipe." ChatGPT s'est terminé à la fin.
Ce genre de compréhension a choqué Pietro Schirano, un ingénieur en IA qui a travaillé chez Facebook et Uber, et est resté sans voix.
En plus des yeux, il y a des oreilles et une bouche.
Derrière cette mise à niveau de ChatGPT, la capacité de reconnaissance vocale est basée sur le modèle open source Whisper, et la capacité de génération de son est basée sur un modèle TTS (text-to-speech) supplémentaire. Actuellement, la synthèse vocale prend en charge cinq voix, toutes produites en coopération avec des comédiens professionnels.
Mais voir ChatGPT sur deux téléphones mobiles discuter devant vous, à propos de « Un utilisateur a-t-il essayé de chanter au karaoké avec vous ? » - il ne vous le demande pas, il en demande un autre - il semble être un peu trop en avance sur son temps.
De plus, il semble avoir le potentiel pour devenir psychiatre. Lilian Weng, membre de l'équipe de sécurité d'OpenAI, a eu une conversation privée très émouvante avec ChatGPT en mode vocal, parlant de stress et d'équilibre travail-vie personnelle.
"Ce qui est drôle, c'est que je me sens entendue et réchauffée", a déclaré Lilian Weng sur Twitter. Elle a suggéré que si vous l'utilisez uniquement comme outil de productivité, il vaut mieux essayer son côté le plus délicat.
Source : Twitter
Quant à l'évolution de ChatGPT elle-même, l'ouverture des capacités multimodales qui ont été formées en 2022 établit également une nouvelle base pour l'évolution future.
L'architecte en chef de ChatGPT, John Schulman, a déclaré il y a un mois dans un podcast de Pieter Abbeel (le mentor de John Schulman lorsqu'il se concentrait sur l'apprentissage par renforcement pendant son doctorat à l'Université de Californie à Berkeley) qu'il estimait que les améliorations de performances apportées par les données existantes et les méthodes de mise à l'échelle des modèles pourraient atteindre leurs limites après un certain temps. Après cela, les améliorations apportées par les algorithmes, les ensembles de données, la taille des ensembles de données et la puissance de calcul diminueront progressivement.
"Ainsi, l'ajout de capacités multimodales apportera d'énormes améliorations de performances. Cela permettra au modèle d'acquérir des connaissances qui ne peuvent pas être obtenues à partir du texte et potentiellement de maîtriser des tâches que les modèles de langage pur ne peuvent pas accomplir. Par exemple, les modèles peuvent tirer d'énormes avantages en regardant des vidéos interagissant avec le monde physique ou même avec des écrans d'ordinateur. Tous les logiciels sont conçus pour les humains, et si le modèle peut observer les pixels et comprendre la vidéo, nous pouvons utiliser toutes sortes de logiciels existants ou aider les gens à l'utiliser. Donner au modèle de nouvelles capacités et permettre au modèle d'interagir avec de nouvelles choses améliorera considérablement les capacités réelles du modèle. modèle."
Alors, que peut faire ChatGPT le mois prochain ? J’ai tellement hâte d’y être.