Microsoft a récemment publié son modèle d'image de génération de texte de dernière génération, MAI-Image-2.5, et il a immédiatement pris la troisième place dans le dernier classement de génération de texte d'Arena, montrant que sa force globale dans le domaine de la génération d'images IA rattrape clairement les leaders de l'industrie. Actuellement sur cette liste, gpt-image-2 d'OpenAI se classe premier avec un score de 1388.
Microsoft a déclaré que MAI-Image-2.5 a considérablement amélioré ses performances dans une variété de styles d'image, peut mieux s'adapter aux invites des utilisateurs pour générer des images et présente des améliorations significatives dans le rendu du texte et les détails de l'écran.

Microsoft a initialement lancé l'année dernière son modèle de génération d'images auto-développé MAI-Image-1. Le modèle n'est classé que 9ème dans le classement Image Arena d'Arena, ce qui était très différent des meilleurs modèles des autres laboratoires de l'époque. Microsoft a ensuite intégré le modèle dans Bing.com/create et l'application mobile Bing et l'a mis à disposition des utilisateurs. En mars de cette année, l'équipe Microsoft AI a publié la deuxième génération de MAI-Image-2, qui a apporté des améliorations significatives en termes de performances en lumière naturelle, de restauration de la couleur de la peau, etc., et s'est classée pour la première fois dans le top trois du classement Arena, derrière seulement le gemini-3.1-flash-image-preview de Google et le gpt-image-1.5-high-fidelity d'OpenAI. Il est également connecté simultanément à Copilot, Bing Image Creator et à l'API Microsoft Foundry pour que les développeurs puissent l'appeler.
Sur cette base, la nouvelle génération MAI-Image-2.5 renforce encore les capacités globales du modèle. Microsoft a déclaré que MAI-Image-2.5 peut comprendre et exécuter avec plus de précision les invites textuelles de l'utilisateur, que les images générées sont plus cohérentes dans les détails et la structure globale, et que le rendu du contenu textuel est plus fiable. Les capacités de raisonnement visuel du modèle ont également été améliorées, avec une compréhension plus précise des objets, de l'éclairage, des proportions, des structures de scène et des relations spatiales, contribuant ainsi à générer des images plus conformes aux scènes réelles et aux attentes des utilisateurs.

Microsoft a spécifiquement souligné que MAI-Image-2.5 a réalisé les progrès les plus évidents en matière de rendu de texte, d'illustrations stylisées et d'images commerciales, y compris les affiches, les épreuves d'emballage, la créativité de marque et les images de produits, etc., qui peuvent produire une sortie de meilleure qualité. Par rapport au modèle de la génération précédente, le texte des images générées par le nouveau modèle est plus clair et plus net, la mise en page est plus stable et les éléments visuels de la marque sont plus proéminents et ont une texture plus globale, ce qui correspond mieux aux besoins des applications de conception commerciale et de marketing.
Mustafa Suleyman, responsable de Microsoft AI, a déclaré sur les plateformes sociales que MAI-Image-2.5 se classait troisième dans le classement Arena Vincentian, marquant un autre bond important dans la qualité de la génération d'images. Il a également prédit que lors de la prochaine conférence Build, l'équipe Microsoft AI apportera davantage de mises à jour et de versions associées. Il a déclaré qu'il ne s'agissait que d'une étape supplémentaire dans les efforts de Microsoft dans le domaine de l'imagerie IA, et qu'elle continuerait à promouvoir l'itération des capacités des modèles et des formes de produits à l'avenir.
Actuellement, MAI-Image-2.5 est ouvert à tous les utilisateurs pour une utilisation d'essai via Arena, et les utilisateurs peuvent directement le comparer et l'expérimenter avec d'autres modèles sur la plate-forme. Selon le plan de Microsoft, ce nouveau modèle sera également lancé sur MAI Playground et Microsoft Foundry au cours des deux prochaines semaines, offrant aux utilisateurs ordinaires et aux développeurs des options de création et d'intégration d'images génératives plus diversifiées.