Google lance Gemini 3.1 Flash-Lite, axé sur les performances « rapides et économiques », écrasant le 2.5 Flash

Google a officiellement lancé Gemini 3.1 Flash-Lite aujourd'hui, affirmant qu'il s'agit du modèle le plus rapide et le plus rentable de la série Gemini 3. Il a également déclaré que 3.1 Flash-Lite est conçu pour les charges de travail à grande échelle et à haut débit des développeurs et démontre une qualité extrêmement élevée dans sa gamme de prix et son niveau de modèle.

À partir d'aujourd'hui, Flash-Lite 3.1 sera disponible en avant-première pour les développeurs via l'interface Gemini de Google AI Studio, et sera disponible pour les utilisateurs d'entreprise via Vertex AI.

3.1 Flash-Lite coûte 0,25 USD par million de jetons d'entrée (jetons d'entrée) et 1,50 USD par million de jetons de sortie (jetons de sortie). Selon le test de référence d'Artificial Analysis, 3.1 Flash-Lite fonctionne mieux que 2,5 Flash tout en conservant une qualité identique ou supérieure. Sa vitesse de réponse au premier mot (Time to First Answer Token) a augmenté de 2,5 fois et la vitesse de sortie a également augmenté de 45 %. Google affirme que cette fonctionnalité à faible latence est indispensable pour les flux de travail à haute fréquence, ce qui en fait un modèle idéal permettant aux développeurs de créer des expériences réactives en temps réel.

3.1 Flash-Lite a marqué 1 432 points dans le classement Arena.ai. Dans divers tests de référence de raisonnement et de compréhension multimodale, ses performances surpassent les autres modèles du même niveau. Par exemple, il a obtenu un score de 86,9 % au test GPQA Diamond et de 76,8 % au test MMMU Pro. Ces performances surpassent même les générations précédentes de modèles plus grands, comme le Flash 2,5.

En plus des performances natives, Gemini 3.1 Flash-Lite est également livré en standard avec la fonctionnalité « Thinking Level » dans AI Studio et Vertex AI. Cela donne aux développeurs la flexibilité de contrôler la profondeur de réflexion de leurs modèles pour des tâches spécifiques, ce qui est essentiel pour gérer les charges de travail à haute fréquence. 3.1 Flash-Lite est capable de gérer des tâches à grande échelle telles que la traduction de gros volumes et la modération de contenu, sensibles aux coûts. Dans le même temps, il est également capable d'effectuer des tâches complexes qui nécessitent un raisonnement approfondi, telles que générer des interfaces utilisateur et des tableaux de bord, créer des environnements de simulation et suivre des instructions complexes.

Google a déclaré que les développeurs d'AI Studio et Vertex AI, ainsi que des sociétés telles que Latitude, Cartwheel et Whering, utilisent déjà Flash-Lite 3.1 pour résoudre des problèmes complexes à grande échelle. Les premiers testeurs ont souligné l'efficacité et les capacités d'inférence de Flash-Lite 3.1. Ils ont déclaré que le modèle peut gérer des entrées complexes avec la précision des modèles à grande échelle, suivre strictement les instructions et maintenir un haut degré de cohérence.