En décembre 2024, Microsoft a lancé Phi-4, un petit modèle de langage (SLM) doté des performances les plus avancées de sa catégorie. Aujourd'hui, Microsoft élargit la série Phi-4 avec deux nouveaux modèles : Phi-4-multimodal et Phi-4-mini. Le nouveau modèle multimodal Phi-4 prend en charge simultanément la parole, la vision et le texte, tandis que Phi-4-mini se concentre sur les tâches basées sur le texte.

Phi-4-multimodal est un modèle de paramètres 5,6B et le premier modèle de langage multimodal de Microsoft qui intègre le traitement de la parole, de la vision et du texte dans une architecture unifiée. Comme le montre le tableau ci-dessous, Phi-4-multimodal atteint de meilleures performances sur plusieurs tests de référence par rapport à d'autres modèles omnidirectionnels de pointe existants tels que Gemini2.0Flash et Gemini2.0FlashLite de Google.

Dans les tâches liées à la parole, Phi-4-multimodal surpasse les modèles vocaux professionnels tels que WhisperV3 et SeamlessM4T-v2-Large en matière de reconnaissance vocale automatique (ASR) et de traduction vocale (ST). Le modèle est en tête du classement HuggingFaceOpenASR avec un taux d'erreur de mot étonnant de 6,14 %.

Dans les tâches liées à la vision, Phi-4-multimodal a obtenu de bons résultats en raisonnement mathématique et scientifique. Ce nouveau modèle est comparable, voire dépasse, les modèles populaires tels que Gemini-2-Flash-lite-preview et Claude-3.5-Sonnet en termes de capacités multimodales communes telles que la compréhension de documents et de diagrammes, l'OCR et le raisonnement scientifique visuel.

Phi-4-mini est un modèle de paramètres de 3,8 B qui surpasse plusieurs LLM à grande échelle populaires sur des tâches textuelles, notamment le raisonnement, les mathématiques, le codage, le suivi d'instructions et l'appel de fonctions.

Pour garantir la sécurité de ces nouveaux modèles, Microsoft a travaillé avec des experts en sécurité internes et externes pour effectuer des tests et adopter des stratégies développées par la Microsoft AI Red Team (AIRT). Les modèles Phi-4-mini et Phi-4-multimodal peuvent être déployés sur l'appareil après avoir été optimisés davantage à l'aide d'ONNX Runtime pour une utilisation multiplateforme, ce qui les rend adaptés aux scénarios d'applications à faible coût et à faible latence.

Les modèles Phi-4-multimodal et Phi-4-mini sont désormais disponibles pour les développeurs dans AzureAIFoundry, HuggingFace et NVIDIAAPICatalog. Les développeurs peuvent consulter la documentation technique pour comprendre l'objectif du modèle recommandé et ses limites.

Ces nouveaux modèles Phi-4 représentent une avancée majeure en matière d’intelligence artificielle efficace, apportant de puissantes capacités multimodales et basées sur le texte à une variété d’applications d’intelligence artificielle.