Aujourd'hui, Alibaba a officiellement publié Qwen-Image-2.0, un modèle de génération et d'édition d'images de nouvelle génération.En tant que base de modèle de génération d'images du grand modèle de Qianwen, Qwen-Image-2.0 intègre la génération et l'édition d'images. Il a marqué 1029 points dans l'évaluation de la génération d'images AI Arena, surpassant des modèles tels que Seedream4.5 et Flux2-Max, et juste derrière Google Nano Banana Pro et GPT Image1.5.

Qwen-Image-2.0 prend en charge la saisie de texte ultra-longue de jeton 1K et la haute résolution 2K. Il peut restituer avec précision des instructions complexes et générer facilement des PPT et des infographies professionnels. La qualité est comparable à celle des photographes professionnels. Dans le même temps, Qwen-Image-2.0 possède des capacités de rendu de caractères chinois extrêmement puissantes, et le texte intégral de centaines de textes anciens peut être presque entièrement restitué dans l'image.

Qwen-Image-2.0 est une nouvelle mise à niveau basée sur les deux modèles majeurs de Qwen-Image et Qwen-Image-Edit. Pour la première fois, la génération et l’édition d’images sont unifiées en un seul modèle. Avec une architecture de modèle plus légère, les performances de génération et de modification d’images sont grandement améliorées.

La texture des images générées par Qwen-Image-2.0 est particulièrement délicate, allant des rides d'un vieil homme à l'immensité de l'univers. Les images couramment utilisées de personnes, de nature, de bâtiments, etc. générées par le modèle sont extrêmement réalistes.

Dans l'évaluation faisant autorité AI Arena, le nouveau modèle de Qianwen a obtenu un score de 1 029 en génération d'images, se classant troisième ; il a obtenu un score de 1034 en retouche d'image, juste derrière Nano Banana Pro.

En termes de rendu des caractères chinois, Qwen-Image-2.0 fonctionne extrêmement bien. Non seulement il peut restituer avec précision les caractères chinois dans une variété de polices, mais il peut également en écrire de nombreux et avec précision, et l'effet est meilleur que celui de Nano Banana Pro.

Le nouveau modèle de Qianwen étend les mots d'invite de saisie à 1 000 jetons, qui peuvent décrire les tâches en détail, obtenir un rendu de texte plus professionnel et gérer facilement des images complexes telles que des PPT professionnels, des affiches avancées et des bandes dessinées multi-images. Par exemple, les centaines de mots des illustrations en texte intégral de « La Préface de la Collection Lanting » sont presque entièrement rendues dans de petites polices d'écriture régulières, et des PPT complexes avec des illustrations au format essai sont générés en langage naturel.

Sur la base du modèle Qwen-Image-2.0, les utilisateurs peuvent collaborer avec l'IA pour créer des images plus riches et plus pratiques, comme un organigramme pour générer du poulet Kung Pao en une phrase, un guide de voyage de deux jours à Hangzhou, une photo de groupe de bande dessinée multi-images 4x6, une image de livre d'images pour enfants, une affiche de film de style réaliste, une jungle verte extrêmement réaliste, etc.

Dans le même temps, les utilisateurs peuvent également télécharger plusieurs images à éditer pour générer des selfies avec plusieurs gestes, des émoticônes avec de vraies personnes, des photos réalistes de deux personnes par l'IA, des poèmes avec des images, etc.