OpenAI publie un modèle d'image de nouvelle génération gpt-image-1.5

OpenAI a officiellement lancé aujourd'hui un nouveau modèle de génération d'images gpt-image-1.5, ciblant clairement la très attendue série Nano Banana sous le système Google Gemini pour améliorer sa compétitivité dans le domaine de la génération d'images IA. Ce nouveau modèle sera ouvert aussi bien aux développeurs qu'aux utilisateurs ordinaires, et reprendra entièrement la fonction de génération d'images dans ChatGPT.

En mars de cette année, OpenAI a apporté une mise à niveau majeure à la fonction de génération d'images de ChatGPT. Le nouveau modèle est rapidement devenu populaire dès son lancement. En une semaine, les utilisateurs ont généré plus de 700 millions d'images dans ChatGPT. Puis, en avril, OpenAI a ouvert la même génération de technologie d'image aux développeurs en lançant l'interface gpt-image-1, lui permettant d'intégrer des capacités de génération d'images dans diverses applications et services.

Cependant, le modèle Google Gemini Nano Banana, lancé en septembre, s'est rapidement emparé du sujet et du marché. Grâce à ses performances de génération et d'édition d'images plus élevées, il a considérablement augmenté la couverture utilisateur de Gemini. Nano Banana est considéré comme étant largement en avance sur gpt-image-1 en termes de qualité d'image et de flexibilité d'édition, et a été largement adopté par les développeurs du monde entier. Le mois dernier, Google a lancé Gemini 3 Pro Image (nom de code Nano Banana Pro) sur cette base, tirant parti des avantages de Gemini en matière de raisonnement et de connaissances du monde réel pour améliorer encore la précision et la cohérence des images générées.

gpt-image-1.5, lancé dans ce contexte, est considéré par OpenAI comme un produit de base de nouvelle génération qui concurrence directement la série Gemini Nano Banana. Le nouveau modèle a considérablement amélioré la sophistication de l'édition d'images et la fidélité des éléments clés tels que les logos et les visages des marques. Il est également plus précis dans la compréhension et l’exécution des instructions utilisateur. OpenAI a également souligné que le nouveau modèle a considérablement amélioré le traitement du texte dans les images, en particulier la clarté et l'exactitude du texte dense et du texte de petite taille.

Pour les développeurs, l'optimisation des coûts est un point fort de gpt-image-1.5 : par rapport à la génération précédente gpt-image-1, le nouveau modèle est environ 20 % moins cher en termes de facturation pour l'entrée et la sortie d'image. Les développeurs peuvent toujours contrôler finement le coût de génération grâce au paramètre de qualité, et OpenAI affirme que le nouveau modèle peut toujours maintenir un fort effet de génération même avec des paramètres de qualité inférieurs.

Pour les utilisateurs ordinaires, gpt-image-1.5 est devenu le moteur sous-jacent de l'expérience de génération d'images intégrée de ChatGPT. OpenAI a déclaré que ce modèle peut effectuer une édition précise tout en gardant les détails tels que l'éclairage, la composition et les caractéristiques des personnages pratiquement inchangés. Par rapport à la génération précédente, il peut améliorer les performances jusqu'à 4 fois, et la vitesse de réponse de génération et d'édition est plus rapide.

Parallèlement au nouveau modèle, OpenAI a également lancé une nouvelle zone d'image « Images » dans ChatGPT, qui a été ouverte simultanément dans l'application mobile et la version Web. Les utilisateurs peuvent utiliser des filtres prédéfinis et des mots d'invite pour démarrer rapidement la génération d'images dans ce domaine. Ces préréglages sont régulièrement mis à jour pour suivre les derniers styles et tendances créatifs. OpenAI a déclaré que le nouveau modèle de génération d'images et l'expérience ChatGPT Images seront progressivement proposés à tous les utilisateurs de ChatGPT, et qu'ils continueront à itérer autour de la facilité d'utilisation et de l'efficacité de la création à l'avenir.