Le 19 mars, Xiaomi a annoncé le lancement de trois grands modèles auto-développés, Xiaomi MiMo-V2-Pro, Xiaomi MiMo-V2-Omni et Xiaomi MiMo-V2-TTS. Il est rapporté que MiMo-V2-Pro et MiMo-V2-Omni ont officiellement ouvert les services API.
Selon l'introduction officielle de Xiaomi, parmi les trois modèles, MiMo-V2-Pro est la base de texte phare, conçue pour les scénarios de travail d'agent de haute intensité et axée sur le raisonnement, la planification et l'invocation d'outils. MiMo-V2-Omni est une base d'agents entièrement modale qui intègre nativement la perception textuelle, visuelle et audio pour ouvrir un lien complet depuis la compréhension jusqu'à l'exécution. MiMo-V2-TTS est un grand modèle de synthèse vocale. Son objectif est de donner aux Agents la possibilité d'exprimer des voix chaleureuses et émotionnelles, formant le maillon final de l'ensemble de la pile.
En tant que modèle de base phare, MiMo-V2-Pro est spécialement optimisé pour les scénarios d'agents. Il effectue un réglage fin supervisé et un apprentissage par renforcement pour des architectures d'agents complexes et diverses, dispose de capacités d'appel d'outils et de raisonnement en plusieurs étapes plus solides, et produit finalement des résultats. D'un point de vue architectural, la taille totale des paramètres du modèle dépasse 1 billion (1T), dont les paramètres d'activation sont de 42B. Il adopte un mécanisme d’attention hybride amélioré (Hybrid Attention), qui améliore considérablement la capacité du modèle tout en garantissant l’efficacité du raisonnement. Sa fenêtre contextuelle est encore étendue à 1 million de jetons, ce qui peut prendre en charge des chaînes de tâches ultra longues et des flux de travail complexes.
MiMo-V2-Omni et MiMo-V2-TTS, dévoilés simultanément, complètent les deux pièces du puzzle de la perception et de l'expression. La valeur fondamentale du premier réside dans l’alignement de l’audio, des images et des vidéos. Ce dernier prend en charge un moteur d'expression émotionnelle avec un contrôle plus fin, donnant aux agents des capacités d'expression plus proches de celles des humains.
En termes de prix, le prix API de MiMo-V2-Pro est inférieur à celui des produits concurrents du même niveau. Dans le contexte de 256 000 $, le prix d'entrée par million de jetons est de 1 $ US et le prix de sortie est de 3 $ US ; dans la plage de contexte de 1 M, l'entrée est de 2 USD et la sortie est de 6 USD. Actuellement, MiMo-V2-Pro a officiellement ouvert les services API. MiMo-V2-Omni a également ouvert son API et prend en charge une longueur de contexte de 256 Ko. Le prix des intrants est de 0,4 USD par million de jetons et le prix de la production est de 2 USD.

Normes de facturation des services API pour MiMo-V2-Pro et Claude
En outre, Xiaomi a également uni ses forces avec les cinq équipes de framework Agent d'OpenClaw, OpenCode, KiloCode, Blackbox et Cline pour fournir un support d'interface gratuit d'une durée limitée d'une semaine afin de promouvoir davantage sa pénétration dans la communauté des développeurs.
Cela est également considéré comme un signal important indiquant que Xiaomi parie pleinement sur l’ère des agents. Tôt ce matin-là, le fondateur de Xiaomi, Lei Jun, a publié sur les plateformes sociales : « Dans le domaine de l'IA, notre R&D et nos investissements en capital dépasseront cette année les 16 milliards de yuans. »

Selon Lei Jun, MiMo-V2-Pro, un grand modèle avec des milliards de paramètres, se classe au huitième rang mondial dans le classement d'analyse artificielle de l'intelligence globale des grands modèles mondiaux. Classée par marque grand modèle, elle se classe au cinquième rang mondial. "Notre modèle vient d'être achevé et sera rapidement réitéré et amélioré dans la période à venir."
Il convient de mentionner que Luo Fuli, responsable des grands modèles MiMo de Xiaomi, a également déclaré publiquement sur les plateformes sociales que le « Hunter Alpha » précédemment lancé est la version de test interne du modèle phare MiMo-V2-Pro. Luo Fuli, née en 1995, est qualifiée de « femme talentueuse en IA » par l'industrie.
Le 11 mars, le mystérieux modèle nommé « Hunter Alpha » a été lancé sur OpenRouter, la plus grande plateforme d’agrégation d’API au monde. Il est rapporté qu'en seulement sept jours, le nombre cumulé d'appels vers ce modèle a dépassé 1 000 milliards de jetons, et il est resté en tête de liste pendant plusieurs jours consécutifs, provoquant des discussions animées et a été une fois confondu avec une première version de "DeepSeek V4". .
Par coïncidence, Luo Fuli a déjà travaillé chez DeepSeek. Elle a débuté sa carrière à l'Alibaba Damo Academy, où elle a dirigé le développement du modèle de pré-formation multilingue VECO et a promu le travail open source d'AliceMind. En 2022, Luo Fuli a rejoint Huanquan Quantitative, la société mère de DeepSeek, pour s'engager dans des travaux liés au deep learning. Elle a ensuite été chercheuse en apprentissage profond chez DeepSeek et a participé au développement de DeepSeek-V2 et d'autres modèles.
En décembre de l'année dernière, Luo Fuli a fait sa première apparition publique lors de la conférence des partenaires « People, Cars, and Homes Ecosystem » de Xiaomi.
Le 17 décembre, Lu Weibing, partenaire et président du groupe Xiaomi, a annoncé que le grand modèle d'IA auto-développé par Xiaomi, Xiaomi MiMo-V2-Flash, était officiellement open source et lancé. Lu Weibing avait révélé à l'époque que Xiaomi avait lancé des "investissements sous pression" dans le domaine de l'IA et que les progrès des grands modèles et applications "dépassaient de loin les attentes". À l’avenir, il se concentrera sur l’orientation fondamentale de « l’intégration profonde de l’IA et du monde physique ».