Lorsqu'il s'agit de grands modèles de langage (LLM), l'échelle est certainement importante car elle affecte l'endroit où le modèle est exécuté. StabilityAI, un fabricant connu pour sa technologie d'intelligence artificielle de génération de texte en image à diffusion stable, a lancé aujourd'hui l'un de ses plus petits modèles à ce jour : StableLM21.6B.


StableLM est un LLM de génération de contenu textuel que Stable AI a lancé pour la première fois en avril 2023 avec 3 milliards et 7 milliards de modèles de paramètres. Le nouveau modèle StableLM est en fait le deuxième modèle publié par StabilityAI en 2024, après que la société a publié StableCode3B plus tôt cette semaine.

Le nouveau modèle StableLM est compact et puissant, conçu pour réduire les barrières à l'entrée pour qu'un plus grand nombre de développeurs participent à l'écosystème d'IA générative et incorporent des données multilingues en sept langues : anglais, espagnol, allemand, italien, français, portugais et néerlandais. Le modèle exploite les dernières avancées algorithmiques en matière de modélisation du langage pour obtenir le meilleur équilibre entre vitesse et performances souhaité par StabilityAI.

Carlos Riquelme, responsable de l'équipe linguistique chez StabilityAI, a déclaré à VentureBeat : « En général, les modèles plus grands entraînés avec des recettes d'entraînement similaires sur des données similaires ont tendance à mieux fonctionner que les modèles plus petits.

Selon StabilityAI, le modèle surpasse les autres petits modèles de langage avec des paramètres inférieurs à 2 milliards sur la plupart des benchmarks, notamment Phi-2 de Microsoft (2,7 milliards), TinyLlama1.1B et Falcon1B. Le nouveau StableLM, plus petit, est même capable de surpasser certains des modèles plus grands, y compris le précédent modèle StableLM3B de StabilityAI.

Riquelme a déclaré : "StableLM21.6B. Fonctionne mieux que certains des plus grands modèles formés il y a quelques mois. Considérez les tendances similaires dans les ordinateurs, les téléviseurs ou les puces électroniques, où ils deviennent plus petits, plus fins et meilleurs avec le temps."

Pour être clair, le plus petit StableLM21.6B présente certains inconvénients en raison de sa petite taille. En raison de la nature des modèles de langage petits et de faible capacité, StableLM21.6B peut également présenter certains problèmes courants, tels que des taux d'hallucinations élevés ou un langage potentiellement toxique.

Au cours des derniers mois, StabilityAI a travaillé sur des options LLM plus petites et plus puissantes. En décembre 2023, le modèle StableLMZephyr3B est sorti, plus petit mais plus puissant que le modèle initial sorti en avril.

Le nouveau modèle StableLM2 est formé sur davantage de données, notamment des documents multilingues en 6 langues (espagnol, allemand, italien, français, portugais et néerlandais) en plus de l'anglais. Un autre aspect intéressant souligné par Riquelme est l'ordre dans lequel les données sont présentées au modèle lors de l'entraînement. Il souligne que se concentrer sur différents types de données à différentes étapes de la formation peut être enrichissant.

Pour aller plus loin, StabilityAI propose de nouveaux modèles avec des options de pré-entraînement et de réglage fin, ainsi qu'un format que les chercheurs appellent "... dernier point de contrôle du modèle avant le temps de recharge du pré-entraînement".

"Notre objectif est de fournir aux développeurs individuels davantage d'outils et d'artefacts pour innover, s'adapter et s'appuyer sur les modèles existants. Ici, nous fournissons un modèle concret et semi-fini que les gens peuvent utiliser", a déclaré Riquelme.

Au cours du processus de formation, le modèle est mis à jour séquentiellement et ses performances s'améliorent. Dans ce cas, le premier modèle ne sait rien, tandis que le dernier modèle a consommé la plupart des données et est censé les apprendre. Dans le même temps, les modèles peuvent devenir moins flexibles vers la fin de la formation car ils sont obligés de mettre fin à l’apprentissage.

"Nous avons décidé de rendre le modèle disponible sous sa forme actuelle avant de commencer la phase finale de formation afin que - nous l'espérons - il soit plus facile de le spécialiser pour d'autres tâches ou ensembles de données que les gens pourraient vouloir utiliser", a-t-il déclaré. "Nous ne sommes pas sûrs que cela fonctionnera bien, mais nous croyons vraiment en la capacité des gens à exploiter de nouveaux outils et modèles de manière étonnante."