OpenAI publie la troisième version de la vision de l'intelligence artificielle DALL-E model

OpenAI a publié la troisième version de sa plateforme d'arts visuels d'intelligence artificielle générative DALL-E, qui permet désormais aux utilisateurs de créer des invites à l'aide de ChatGPT et inclut davantage d'options de sécurité. DALL-E convertit les invites textuelles en images. Mais même le DALL-E2 fait des erreurs, oubliant souvent des formulations spécifiques. Les chercheurs d’OpenAI affirment que la dernière version comprend mieux le contexte.

Une nouvelle fonctionnalité de DALL-E3 est l'intégration avec ChatGPT. En utilisant ChatGPT, les utilisateurs n'ont pas besoin d'écrire eux-mêmes des invites détaillées pour guider DALL-E3 ; ils demandent simplement à ChatGPT de proposer une invite, et le chatbot écrit un paragraphe (DALL-E est meilleur pour utiliser des phrases plus longues) que DALL-E3 doit suivre. D'autres utilisateurs peuvent également utiliser leurs propres conseils s'ils ont des idées spéciales pour DALL-E.

DALL-E a été lancé pour la première fois en janvier 2021, avant StabilityAI et les autres plateformes artistiques d’IA générative texte-image de Midjourney. Au moment du lancement de DALL-E2 en 2022, OpenAI a ouvert une liste d'attente pour contrôler qui peut utiliser la plate-forme au milieu des critiques selon lesquelles DALL-E peut générer des images réalistes et explicites et présenter des biais dans les photos qu'il génère. En septembre dernier, l'entreprise a supprimé la liste d'attente et a ouvert le DALL-E2 au public.

La nouvelle version de DALL-E sera d'abord publiée pour les utilisateurs de ChatGPTPlus et ChatGPTEnterprise en octobre, suivie par les laboratoires de recherche et leurs services API à l'automne. OpenAI prévoit d'échelonner la sortie de DALL-E3, mais ne s'est pas engagé sur la date de sortie d'une version publique gratuite.

OpenAI affirme avoir effectué un travail approfondi sur DALL-E3, en se concentrant sur la création de mesures de sécurité solides pour empêcher la création d'images obscènes ou potentiellement haineuses. OpenAI affirme travailler avec des redteamers externes – un groupe qui tente intentionnellement de compromettre un système pour tester sa sécurité – et s'appuie sur des classificateurs d'entrée, une méthode qui apprend aux modèles de langage à ignorer certains mots pour éviter les invites explicites ou par force brute. Le DALL-E3 ne peut pas non plus reproduire l'image d'une personnalité publique, à condition que son nom soit explicitement mentionné dans l'invite.

Sandhini Agarwal, chercheuse en politiques au sein de l'entreprise, s'est déclarée « très confiante » dans les mesures de sécurité de l'entreprise, mais a précisé que le modèle s'améliore constamment et n'est pas parfait. Un représentant d'OpenAI a déclaré dans un e-mail que DALL-E3 avait été formé pour ne pas générer d'images dans le style des artistes vivants. Contrairement à DALL-E2, DALL-E2 peut imiter le style artistique de certains artistes lorsque vous y êtes invité.

Peut-être pour éviter d'éventuelles poursuites judiciaires, OpenAI permettra également aux artistes de choisir d'exclure leurs œuvres des futures versions du modèle d'IA de conversion texte-image. Les créateurs peuvent soumettre des images dont ils possèdent les droits d'auteur et demander leur suppression en remplissant un formulaire sur le site. De cette façon, les futures versions de DALL-E pourront bloquer les résultats qui ressemblent à l'image et au style de l'artiste. Les artistes ont poursuivi les concurrents de DALL-E, StabilityAI et Midjourney, ainsi que le site Web d'art DeviantArt, les accusant d'utiliser leurs œuvres protégées par le droit d'auteur pour former des modèles texte-image.