Le jour de leur sortie, les trois listes ont été tuées. Dans les 12 heures suivant la mise en ligne de GPT Image 2, les trois sous-listes de texte vers image, d'édition d'image unique et d'édition multi-images étaient toutes en tête de liste. Les mots officiels d'Arena : "une table rase".



Sur la liste principale de Wenshengtu, GPT Image 2 a marqué 1512 points et Nano Banana 2 a marqué 1271 points. L'écart de 241 points est le plus important de l'histoire de l'Arena.

"Aucun modèle n'a jamais dominé Image Arena avec une telle disparité", ont déclaré les responsables d'Arena.

Dans tous les tests à l'aveugle dans Image Arena, le taux de victoire de GPT Image 2 était de 93 % : 100 images ont été associées dans un test à l'aveugle et 93 personnes ont choisi celui d'OpenAI.

"Si vous considérez DALL-E comme des peintures rupestres et Images 1.0 comme de l'art ancien, alors Images 2.0 est la Renaissance."

OpenAI a présenté Images 2.0 à l'ouverture de la conférence, et Ultraman l'a même qualifié de mise à niveau intergénérationnelle :

Cela semble passer soudainement de GPT-3 à GPT-5.


https://www.youtube.com/watch?v=sWkGomJ3TLI

Le document officiel de l'API OpenAI donne une évaluation superlative d'Images 2.0.


https://developers.openai.com/api/docs/models/gpt-image-2

Mais la véritable histoire ne réside pas dans les données.

édredonGooglepressesix mois

OpenAI revient enfin

Le temps remonte à août 2025.

Google a lancé Nano Banana. Ce modèle de génération d'images intégré dans Gemini a instantanément explosé du côté C.

Lors du rapport financier du troisième trimestre trois mois plus tard, le PDG de Google, Sundar Pichai, a personnellement divulgué une série de chiffres : l'activité mensuelle de Gemini est passée de 450 millions en juillet à 650 millions en octobre.

Josh Woodward, directeur de Google Labs, a déclaré qu'une grande partie de cette croissance provenait du boom de la génération d'images entraîné par Nano Banana.

En novembre, Google a de nouveau publié Nano Banana Pro. La capacité de rendu du texte est incroyable, les images IA peuvent écrire des mots correctement pour la première fois et OpenAI est surpassé du côté C.

Le 18 novembre, Google a pris une autre décision. Gemini 3 a atteint le sommet de la LM Arena immédiatement après sa sortie, avec 1 501 points, devenant ainsi le premier modèle de pointe à dépasser les 1 500 points.

À la fin de ce mois, Altman a publié une note interne « code rouge » à l'ensemble de l'entreprise.

Selon The Information, Altman a déclaré en privé à ses employés que Gemini 3 pourrait entraîner des difficultés économiques pour OpenAI. Yahoo Finance a ensuite révélé : sous le code rouge, OpenAI a suspendu la recherche et le développement d'autres produits tels que AI Agent, et toutes les ressources ont été allouées à ChatGPT.

En décembre, OpenAI a lancé GPT Image 1.5. Arena s'est classée première, mais le côté C n'a pas réussi à exploser.

En février 2026, Google a fait un autre geste, Nano Banana 2 est apparu et Arena a repris la tête.

OpenAI perd encore.

Ce n'est que le 21 avril, lorsque GPT Image 2 a été mis en ligne, qu'OpenAI a pris et repris l'avance.

L'IA du dessin sera redéfinie

Pourquoi GPT Image 2 mène-t-il de 241 points ?

La réponse principale se situe au niveau architectural.

GPT Image 2 n'est pas un modèle de diffusion de la génération Stable Diffusion.

Le directeur de recherche d'OpenAI, Boyuan Chen, appelle cela un « modèle généraliste » qui est « réorganisé à partir de zéro » (reconstruit à partir de zéro). Le nom interne d'OpenAI est la « version image de GPT ».

Cependant, Chen a refusé d’admettre publiquement s’il s’agissait d’une architecture de diffusion ou autorégressive lors du point de presse.

Le monde extérieur le comprend généralement comme un « système de génération d'images avec planification inférentielle » : planifier avant de peindre, puis écrire. C'est la plus grande différence entre GPT Image 2 et le modèle d'image de la génération précédente.

OpenAI lui a donné une nouvelle étiquette dans sa description officielle : le premier modèle d'image doté de capacités de réflexion natives.

Réfléchissez avant de dessiner, vérifiez après avoir dessiné, recherchez des informations en ligne si nécessaire et produisez 8 images cohérentes à la fois.

Ce n’est pas un pinceau, c’est un assistant visuel réfléchi.

Les données de répartition du classement des arènes montrent :

Dans la catégorie rendu de texte (Text Rendering), GPT Image 2 a augmenté de 316 points par rapport à la génération précédente ; les dessins animés et les portraits ont chacun augmenté de 296 points ; les trois catégories produit/3D/réaliste ont une fourchette globale de +247 à +277.

Le rendu du texte était un problème résolu pour la première fois par Nano Banana Pro en novembre 2025, mais la précision à cette époque était de 94 %. L'image GPT 2 l'a poussé à 99 %.


Démonstration en direct à la conférence OpenAI : laissez GPT Image 2 dessiner un bol de riz, dans lequel un seul grain de riz porte le nom du modèle.

Spécifique à la démonstration de capacités, le président d'OpenAI, Greg Brockman, a fait une démonstration sur son compte X.

Le premier cas est la restauration de photos anciennes.


Les vieilles photos de famille décolorées et jaunies peuvent être instantanément transformées en versions couleur haute définition avec un mot rapide.

L'expression « entrées d'images haute fidélité » dans le document officiel de l'API OpenAI fait référence à la capacité du modèle à conserver les détails de l'image originale : l'extrémité d'entrée peut lire avec précision les détails des anciennes photos fanées, endommagées et floues, et l'extrémité de sortie peut restituer une version claire.

Dans le deuxième cas, Brockman a transmis un ensemble d'images de test de l'utilisateur @doodlestein : en utilisant le même mot d'invite complexe pour demander à l'image GPT 2 de dessiner un diagramme d'explication mathématique.

Il a commenté que GPT Image 2 peut générer des images avec des styles différents, même pour des mots d'invite complexes.



@doodlestein Test GPT Image 2 Dessinez un diagramme explicatif d'algèbre linéaire en utilisant le même mot d'invite. Le modèle dessine 4 versions complètement différentes en une seule fois : le même enseignement Mona Lisa + vecteur propre, et la composition, la correspondance des couleurs et la densité des informations de chaque version sont complètement différentes.

La véritable valeur de ce cas n'est pas « d'être capable de dessiner des graphiques mathématiques », mais de résoudre un problème important de la génération de graphiques IA au cours des deux dernières années : une sortie unique et une mauvaise contrôlabilité des variantes.

GPT Image 2 fait pour la première fois « une invite me donne 4 directions complètement différentes » une fonctionnalité au niveau du produit.

Un testeur senior de LM Arena dans l'industrie a commenté :

L'écart entre GPT Image 2 et Nano Banana Pro est aussi grand que l'écart entre Nano Banana Pro et DALL-E.

Toute une génération est passée.


GPT Image 2 Page de bande dessinée de style manga générée par le mode Réflexion : à partir d'un simple mot d'invite, le modèle maintient la cohérence des personnages et présente des intrigues multi-images.

DALL-E retraité

Adobe Canva est coincé dans un coin

Le jour du lancement, l’intégration des outils en aval a été plus rapide que prévu par la communauté technologique.

Figma, Canva, Adobe Firefly, fal et Hermes Agent ont tous été intégrés le 21 avril.

La tarification des API est encore plus dangereuse :

Les images de haute qualité coûtent 0,21 $ par image ; ChatGPT Plus coûte 20 $ par mois et la génération d'images est incluse dans le forfait.

Derrière cette différence de prix, cela pourrait entraîner la plus grande restructuration industrielle dans le secteur de la génération d'images en 2026.


Photoréaliste franc généré par GPT Image 2. Côte, ciel nuageux, voitures rétro, texture de film - ce type d'effet visuel qui obligeait autrefois les photographes professionnels à prendre des photos en extérieur et à post-production peut désormais être obtenu avec une API de 0,21 $. Gabriel Goh, chercheur à OpenAI, a déclaré que le photoréalisme est la capacité qui l'enthousiasme le plus à propos du modèle.

Le 12 mai, les DALL-E 2 et DALL-E 3 ont été officiellement retirés.

Ils sont les fondateurs de toute la révolution visuelle de l’AIGC en 2022. Trois ans plus tard, elle est entrée dans l’histoire par le propre successeur d’OpenAI.

OpenAI mentionné dans les notes de version officielles :

Les images ne sont pas une décoration, elles sont un langage. Une bonne image fait la même chose qu’une bonne phrase : sélectionne, arrange, révèle.

Cela représente un changement dans la philosophie du produit.

Bien entendu, il n’y a pas de voix opposées. ZDNet a découvert lors de tests réels que GPT Image 2 ne pouvait pas reproduire avec précision les logos de la marque et que même le propre logo de ZDNet était déformé.

Nano Banana 2 présente toujours des avantages en termes de réalisme des portraits et de cohérence multi-références.

Bien que GPT Image 2 ne soit pas encore parfait, le modèle de piste a changé.

L’ère du rendu est révolue

L’ère du raisonnement vient de commencer

Google intègre l'inférence aux modèles d'image. OpenAI connecte les outils d'image aux modèles d'inférence. L'écart Elo de 242 points mesure la différence d'architecture entre les deux.

Ce commentaire d'implicator.ai divise les deux époques de génération d'images.

2022 à 2025 est l’ère du rendu.

DALL-E, Midjourney, Stable Diffusion, visent tous à « peindre comme ». Le modèle est le pinceau, l'utilisateur est le peintre et l'invite est le dessin.

L'image GPT 2 représente une ère de raisonnement.

Le modèle réfléchit avant d'écrire, peut rechercher, s'auto-vérifier et effectuer des tâches. Ce n'est pas un pinceau, c'est un assistant qui sait dessiner.

Ce qui mérite vraiment l'attention avec la sortie de GPT Image 2, c'est le fait que la génération d'images évolue vers la « réflexion ».

À court terme, c'est Black Forest Labs (Flux 2) qui pourrait être le plus en difficulté.

Kingy AI a déclaré sans ambages : En tant que fabricant axé sur la diffusion, l'ensemble du pipeline technique de Flux 2 est architecturalement en conflit avec le raisonnement « jeton par jeton ».

Soit fusionner, soit réécrire, il n’y a pas de troisième voie.

À moyen terme, Google pourrait contre-attaquer au prochain trimestre. Nano Banana 3, ou Imagen-Reason, ne durera pas longtemps.

À long terme, l’impact de cette démarche va bien au-delà de la génération d’images.

Lorsque l’IA commencera à utiliser la « pensée » pour produire des images, des vidéos, des audios et des codes, l’ensemble du paradigme de l’IA générative changera en conséquence.

Lorsqu'Ultraman a tapé « code rouge » dans son mémo en décembre de l'année dernière, il ne s'attendait probablement pas à revenir au sommet d'Arena de cette manière cinq mois plus tard.

Mais la véritable signification de cette contre-attaque n’est peut-être pas qu’OpenAI a vaincu Google, mais qu’OpenAI a réécrit les règles de la génération d’images.


Liste d'édition d'image unique Arena.AI (Image Edit Arena) : GPT Image 2 (moyen) continue de figurer en tête de liste avec plus de 1 510 points. Les deuxième, troisième, quatrième et cinquième places sont toutes occupées par le propre modèle d'OpenAI et la série Google Gemini. https://arena.ai/leaderboard/image-edit

Quand Google fera-t-il son prochain coup de poing ? Cette question détermine l’orientation du paysage de l’IA au second semestre 2026.

Et avant que ce coup de poing ne soit lancé, personne ne sait combien de temps GPT Image 2 restera au sommet d’Arena.

Références :

https://x.com/gdb/status/2048449695622586576

https://arena.ai/leaderboard/image-edit