Google a récemment publié et open source le modèle multimodal version Gemma 4 12B. L’objectif de développement de ce modèle est de permettre aux appareils grand public d’exécuter des modèles d’IA localement. Selon les tests de Google, le modèle peut fonctionner sur des ordinateurs portables et de bureau dotés de 16 Go de mémoire/mémoire vidéo, grâce aux paramètres à petite échelle de 12B, mais le modèle est aussi intelligent que le modèle de la version Gemma 26B.

Les avantages du modèle incluent :
Nouvelle architecture unifiée : pas besoin d'encodeurs multimodaux, prise en charge directe des entrées texte, image, vidéo et audio.
Capacités d'inférence avancées : les performances de référence sont proches du modèle d'architecture expert hybride Gemma version 26B, qui peut fournir une inférence en plusieurs étapes localement.
Faibles besoins en mémoire : seulement 16 Go de mémoire ou de mémoire vidéo sont nécessaires pour fonctionner localement, bien que plus de mémoire offre de meilleures performances.
Version open source du modèle : le modèle est publié sous la licence Apache 2.0, et Google et la communauté fournissent également un support complet de l'écosystème de développeurs.
Sélecteur prédictif : la version Gemma 4 12B est équipée d'une variété de sélecteurs prédictifs de jetons, qui peuvent réduire efficacement les retards.
En savoir plus sur le modèle :
L'intelligence du Gemma 4 12B dans le test de référence d'annotation est proche du modèle d'architecture hybride 26B MoE précédemment publié par Google en open source. Cependant, la version 12B nécessite très peu de mémoire et peut être exécutée directement sur des ordinateurs portables et de bureau grand public équipés de 16 Go de mémoire ou de mémoire vidéo, permettant aux utilisateurs de vivre localement de puissantes expériences d'interaction multimodales et intelligentes.
Les avantages exceptionnels de ce modèle incluent également la simplification du traitement des entrées image, vidéo et audio. Les modèles multimodaux traditionnels s'appuient généralement sur des encodeurs indépendants pour convertir les images et l'audio, puis transmettre la représentation convertie au modèle de langage. Étant donné que ces encodeurs séparés augmenteront la latence et l'utilisation de la mémoire, Google utilise une architecture sans encodeur pour entraîner le modèle Gemma 4 12B, afin que le modèle puisse intégrer directement les entrées audio et visuelles.
Vision : utilisez un module d'intégration léger pour remplacer l'encodeur visuel Gemma 4. Ce module ne contient qu'une seule opération de multiplication matricielle, d'intégration de position et de normalisation, ce qui permet au réseau fédérateur du modèle de prendre directement en charge le traitement visuel.
Audio : Google a entièrement supprimé l'encodeur audio, projetant le signal audio brut dans le même espace dimensionnel que le balisage du texte.
Essayez de télécharger le modèle :
Actuellement, la version Gemma 4 12B est fournie sur plusieurs plates-formes. Les développeurs intéressés peuvent en faire l'expérience directement dans Ollama, etc., ou accéder à HuggingFace ou Kaggle pour télécharger le fichier de poids du modèle. Les développeurs peuvent également utiliser Unsloth pour un réglage efficace afin de personnaliser la version dont ils ont besoin.
Ollama : https://ollama.com/library/gemma4
HuggingFace : https://huggingface.co/collections/google/gemma-4
Unsloth : https://unsloth.ai/docs/models/gemma-4