La fonctionnalité de génération d'images de ChatGPT a été améliorée

Mardi, lors d'une diffusion en direct, Sam Altman, PDG d'OpenAI, a annoncé la première mise à niveau majeure des capacités de génération d'images de ChatGPT depuis plus d'un an. ChatGPT peut désormais exploiter le modèle GPT-4o de l'entreprise pour créer et modifier de manière native des images et des photos. GPT-4o est depuis longtemps la base des plateformes de chatbots d’intelligence artificielle, mais jusqu’à présent, le modèle ne pouvait générer et éditer que du texte, pas des images.

Altman a déclaré que la génération d'images natives GPT-4o est désormais disponible dans ChatGPT et le produit de génération de vidéo AI d'OpenAI, Sora, disponible pour les abonnés du plan Pro de 200 $ par mois de la société. OpenAI a déclaré que la fonctionnalité serait bientôt déployée auprès des utilisateurs Plus et gratuits de ChatGPT, ainsi que des développeurs utilisant les services API de l'entreprise.

GPT-4o avec sortie d'image « réfléchit » plus longtemps que le modèle de génération d'images qu'il remplace effectivement, DALL-E3, produisant ce qu'OpenAI décrit comme des images plus précises et détaillées. GPT-4o peut modifier des images existantes, y compris des images contenant des personnes, en les transformant ou en « corrigeant » des détails tels que des objets de premier plan et d'arrière-plan.

OpenAI n'a pas divulgué quelles données d'image il a utilisées pour mettre en œuvre les nouvelles capacités de génération d'images. De nombreux fournisseurs d’IA générative considèrent les données de formation comme un avantage concurrentiel et restent donc secrets à leur sujet et sur les informations qui les entourent. Mais les détails des données de formation pourraient également déclencher des litiges liés à la propriété intellectuelle, une autre raison pour laquelle les entreprises hésitent à divulguer trop d'informations.

OpenAI fournit un formulaire de désinscription qui permet aux créateurs de demander que leurs œuvres soient supprimées de leurs ensembles de données de formation. La société a également déclaré qu'elle respectait les demandes visant à interdire à ses robots de grattage de sites Web de collecter des données de formation, y compris des images, à partir de sites Web.

Les capacités améliorées de génération d’images de ChatGPT font suite à la sortie d’image native expérimentale de Google pour l’un de ses modèles phares, Gemini 2.0 Flash. Cette fonctionnalité puissante devient virale sur les réseaux sociaux – et pas nécessairement pour les bonnes raisons. Le composant graphique de Gemini2.0 Flash dispose de peu de protections, permettant aux utilisateurs de supprimer les filigranes et de créer des images représentant des personnages protégés par le droit d'auteur.