Déblocage multimodal ChatGPT : le code est généré en prenant une photo, les anciens manuscrits parchemins peuvent être reconnus en un coup d'œil et le résumé du graphique dépasse 6

Mercredi, OpenAI vient d'annoncer la levée de l'interdiction des capacités multimodales de ChatGPT. Désormais, dès sa mise en ligne, les internautes deviennent instantanément fous. Voyons ensuite à quel point les capacités de reconnaissance d’images de ChatGPT sont puissantes.

Prenez une photo et téléchargez-la, et le code sera généré instantanément

Un internaute a enregistré une vidéo et téléchargé une image sur un tableau blanc lors d'une réunion, puis a demandé à ChatGPT d'écrire le code.

Vous pouvez également télécharger un croquis dessiné à la main et demander à ChatGPT de créer une page Web en HTML.

Whoosh whoosh, le code sortait toutes les minutes.

Il s’agit simplement de la capacité multimodale démontrée par Greg Brockman lors de la sortie de GPT-4 cette année.

Pour un autre exemple, prenez une photo de votre carnet Todolist.

Ensuite, laissez GPT-4 créer un PythonTkinterGUI, puis il a été implémenté...

Manuscrits anciens parchemins, traduits en un coup d'œil

Voici un autre dessin manuscrit de l'alchimiste du XVIIe siècle Robert Boyle. GPT-4 peut-il le lire ?

C'est du gâteau pour cela.

Par ex. "Manuel médicinal catalan sur les momies médicinales".

ChatGPT peut également transcrire et traduire.

Benjamin Breen, professeur agrégé d'histoire à l'UCSC, a déclaré :

Cela aura un impact significatif sur les historiens. Imaginez un GPT-4 multimodal personnalisé formé sur un ensemble spécifique de manuscrits. Il peut non seulement transcrire, mais aussi traduire et classer. (C'est ça, écrire sans LLM, qui est un gros problème à mon avis).

Le résumé du graphique est également très bon 6

Vous pouvez également commander à GPT-4 pour extraire des données basées sur le graphique.

Du code Python peut ensuite être créé pour répliquer le graphique et le rendre plus semblable à un graphique.

Ensuite, jetez-y le graphique de tendance boursière, et il peut également analyser et résumer les caractéristiques.

Lire des images « a un QI supérieur »

Donnez à GPT-4 une image abstraite.

Il permet en effet d'identifier avec précision la métaphore de « l'importance de la communication » que ces quatre images veulent exprimer. C'est scandaleux.

GPT-4V peut même lire l’écriture manuscrite des médecins.

Certains internautes japonais ont directement utilisé Sun Wukong de "Dragon Ball" pour passer le test ChatGPT.

Il existe également divers codes de vérification « êtes-vous humain ».

Téléchargez une partie de votre propre travail et GPT-4 peut également vous donner des suggestions d'amélioration.

Certains internautes ont découvert que GPT-4V avait donné la bonne réponse à cette question dans l'article kosmos-1, mais il y avait une erreur dans le processus de raisonnement.

Grâce à cette fonctionnalité, les enfants n'ont plus à faire leurs devoirs.

Le grand résumé des internautes

En plus de l'expérience ci-dessus, certains internautes ont écrit un long article présentant leur propre test du GPT-4V.

Testez-en un :Questions et réponses visuelles

Donnez-moi une émoticône et voyez dans quelle mesure GPT-4V la comprend ?

GPT-4V explique avec succès pourquoi il est intéressant et mentionne les différents composants de l'image et comment ils sont connectés.

Il convient de noter que GPT-4V est capable de lire et de répondre aux commentaires entre crochets fournis.

Pourtant, GPT-4V a commis une erreur en l'étiquetant « NVIDIABURGER » au lieu de « GPU ».

Ensuite, testez-le à nouveau avec une pièce de monnaie, une photo d'un sou américain. GPT-4V est capable d'identifier avec succès l'origine et la dénomination de la pièce.

Mais s'il s'agit d'une image de plusieurs pièces et que l'on demande GPT-4V, de combien d'argent ai-je ?

À ce stade, il ne peut identifier que le nombre de pièces, mais pas le type de devise.

Test 2 : reconnaissance OCR

Capturez des images de texte à partir de pages Web et téléchargez-les. GPT-4V peut très bien lire le contenu.

Test 3 : OCR mathématique

L'OCR mathématique est une forme spéciale de reconnaissance optique de caractères qui cible les équations mathématiques.

Un internaute a posé à GPT-4V un problème mathématique et l'a présenté sous la forme d'une capture d'écran du document.

Ce problème consiste à calculer la longueur d'une ligne de fermeture à glissière étant donné 2 angles, avec l'invite « résoudre » sur l'image.

Le modèle identifie les problèmes qui peuvent être résolus à l'aide de la trigonométrie, identifie les fonctions à utiliser et fournit une présentation étape par étape de la façon de résoudre le problème. GPT-4V fournit alors la bonne réponse à la question.

Cela dit, la carte système GPT-4V indique qu'il peut manquer des symboles mathématiques dans le modèle.

Différents tests, y compris des tests avec des équations ou des expressions écrites à la main sur papier, peuvent indiquer la capacité insuffisante d'un modèle à répondre à des questions mathématiques.

Test 4 : Détection d'objets

Laissez GPT-4V détecter un chien dans une image et fournir les valeurs x_min, y_min, x_max et y_max liées à la position du chien. Les coordonnées du cadre de délimitation renvoyées par GPT-4V ne correspondent pas à la position du chien.

Bien que GPT-4V soit très puissant pour répondre aux questions sur l'image, ce modèle ne peut pas remplacer le réglage fin des modèles de détection d'objets lorsque vous souhaitez savoir où se trouve un objet dans l'image.

Test 5 : Code de vérification

GPT-4V s’est avéré capable de reconnaître les images contenant des codes de vérification, mais a souvent échoué au test.

Dans un exemple de sélection de grilles de feux de circulation, GPT-4V a sélectionné moins de grilles contenant des feux de circulation.

Test 6 : Mots croisés et Sudoku

Dans le test Sudoku, GPT-4V a reconnu le jeu mais a mal compris la structure du plateau et a donc renvoyé des résultats inexacts.

À propos, la fonction réseau ChatGPT est de retour.