Lors de la conférence des développeurs Build 2026, Microsoft a annoncé une expansion significative de sa famille de modèles MAI auto-développée créée par l'équipe Microsoft AI Superintelligence, en lançant le premier modèle d'inférence à usage général MAI-Thinking-1, un modèle de code MAI-Code-1 pour GitHub Copilot et plusieurs versions mises à jour de modèles de parole, de transcription et de génération d'images pour améliorer encore son paysage technologique d'IA de bout en bout. Cela marque l'expansion accélérée de Microsoft dans le domaine des modèles de base, depuis la parole et les images jusqu'aux scénarios complexes de raisonnement et de productivité des développeurs.

Microsoft a déclaré que la famille de modèles MAI a continué de s'étendre au cours de l'année écoulée et a publié MAI-Voice-1, MAI-1-preview, ainsi que MAI-Transcribe-1 et MAI-Image-2 plus tôt cette année, puis a lancé MAI-Image-2.5, qui a amélioré la qualité du rendu du texte, des illustrations stylisées et des images commerciales. Cette fois, sur cette base, de nouveaux modèles de raisonnement et de codage sont ajoutés, et les gammes de produits voix, transcription et image sont simultanément mises à niveau pour former un portefeuille de produits plus complet.
MAI-Thinking-1 est le premier modèle d'inférence officiellement annoncé par Microsoft. Il a été formé à partir de zéro par l’équipe Microsoft AI et n’a pas été distillé à partir d’autres modèles. Microsoft a souligné que le modèle est formé à l'aide de données d'entreprise propres et sous licence commerciale et qu'il est conçu pour répondre aux exigences des utilisateurs d'entreprise en matière de conformité et de commercialisation des données. MAI-Thinking-1 est un modèle à échelle moyenne avec 35 milliards de paramètres d'activation et prend en charge 128 000 fenêtres contextuelles. Il est principalement destiné à des scénarios tels que l’exécution d’instructions complexes en plusieurs étapes, le raisonnement contextuel long et la génération de code.
Bien que Microsoft n'ait pas divulgué de données de référence détaillées dans l'annonce, il a cité les résultats d'examens indépendants sur son blog et a déclaré que lors du test à l'aveugle, la préférence globale des évaluateurs était davantage pour MAI-Thinking-1 que pour Claude Sonnet 4.6 d'Anthropic. En outre, Microsoft a également déclaré que dans le test de tâche de code SWE-bench Pro, MAI-Thinking-1 était comparable à Claude Opus 4.6 en termes de performances de codage, montrant le potentiel de ce modèle pour les développeurs et les tâches d'ingénierie complexes. MAI-Thinking-1 est actuellement en version préliminaire privée pour certains clients via Microsoft Foundry.
En termes de génération d'images, le MAI-Image-2.5 précédemment publié par Microsoft et sa « variante flash » ont été ouverts aux développeurs via Microsoft Foundry. Selon les dernières données de la liste d'articles d'Arena citées par Microsoft, MAI-Image-2.5 a surpassé Nano Banana Pro de Google dans la tâche de génération d'images de texte et est entré dans les trois premiers de la liste. Ce modèle a été intégré à PowerPoint et est progressivement déployé sur OneDrive, offrant des capacités de génération d'images de meilleure qualité pour l'écosystème Office.
En termes de transcription vocale, Microsoft a publié MAI-Transcribe-1 en avril de cette année, qui prend en charge la transcription parole-texte dans les 25 langues les plus couramment utilisées sur la base de ses propres données d'utilisation du produit. Cette fois, Microsoft a lancé la version améliorée MAI-Transcribe-1.5, qui a atteint le niveau de pointe en matière de précision de reconnaissance vocale et a étendu le nombre de langues couvertes à 43. Il prévoit d'ajouter bientôt des capacités de transcription en streaming au modèle pour répondre aux besoins des scénarios en temps réel.
Dans le sens de la synthèse vocale, après avoir annoncé que MAI-Voice-1 était disponible pour tous en avril de cette année, Microsoft a sorti cette fois MAI-Voice-2 et sa version éclair. Le modèle de génération vocale de nouvelle génération prend en charge plus de 15 langues supplémentaires et offre davantage d'options de style vocal pour s'adapter à des scénarios d'application plus riches, tels que le service client multilingue, le doublage de contenu et les assistants intelligents.
Pour les scénarios de codage des développeurs, Microsoft a lancé simultanément MAI-Code-1, un modèle de code d'inférence efficace optimisé pour les charges de travail GitHub. Ce modèle a été lancé dans GitHub Copilot et Visual Studio Code, offrant une prise en charge quotidienne du codage, de la refactorisation, de la complétion de code et d'autres scénarios. Bien que Microsoft n'ait pas divulgué les résultats spécifiques du benchmark MAI-Code-1, cette version est considérée comme un signal important : Microsoft ne s'appuie plus entièrement sur OpenAI et Anthropic pour le modèle sous-jacent de GitHub Copilot, mais introduit progressivement des modèles auto-développés.
En termes de canaux de distribution, en plus de fournir des services aux entreprises et aux développeurs via Microsoft Foundry, Microsoft a également annoncé que ses modèles de la série MAI seraient lancés sur des plateformes tierces telles que Fireworks AI, Baseten et OpenRouter. Dans le même temps, Fireworks AI a également été rendu disponible au sein de Microsoft Foundry, offrant aux entreprises clientes davantage d'options d'architecture et de déploiement. En coopérant avec plusieurs plates-formes, Microsoft espère abaisser davantage le seuil d'accès et accélérer la mise en œuvre des modèles MAI dans différents écosystèmes cloud et d'outils.
À partir de la présentation globale, Microsoft construit une matrice complète de capacités d'IA au niveau de l'entreprise en utilisant plusieurs types de modèles tels que le raisonnement MAI, le codage, la parole, la transcription et les images. Avec l'ajout de MAI-Thinking-1 et MAI-Code-1, la voix de Microsoft dans les domaines du raisonnement complexe et de la productivité des développeurs a été considérablement améliorée, et a également fourni une base technique plus compétitive pour GitHub Copilot, la série Office et les plateformes de collaboration.