La société de puces Taalas grave des modèles d'IA dans des circuits de puces, atteignant une performance étonnante de 17 000 jetons par seconde

Taalas, une startup de puces dont le siège est à Toronto, au Canada, a récemment annoncé la réalisation d'un nouveau financement de 169 millions de dollars (le financement total dépasse 219 millions de dollars). Dans le même temps, la société a également annoncé officiellement qu'elle sortirait du mode furtif et commencerait à présenter sa dernière technologie de base.

La technologie de base de Taalas consiste à coder en dur (graver) une partie de la structure d'un grand modèle de langage (LLM) (en particulier les poids et la logique de calcul) directement sur la puce de silicium pour créer une puce hautement personnalisée, au lieu de charger le modèle en mémoire pour fonctionner comme un GPU traditionnel.

Cette approche de solidification au niveau matériel transforme les grands modèles de langage en « la puce elle-même est le modèle », de sorte qu'elle peut cracher des caractères à une vitesse extrêmement exagérée lors des calculs de modèle. Par exemple, la vitesse d'inférence mono-utilisateur de la puce Taalas HC1 atteint plus de 17 000 jetons/seconde.

Une métaphore facile à comprendre :

Les GPU traditionnels chargent le modèle en mémoire, puis le lisent et le calculent pendant l'exécution. Dans ce cas, le modèle ressemble à un livre posé sur une étagère. Chaque fois qu'il est calculé, la puce doit à plusieurs reprises sortir le livre de l'étagère, le lire, le calculer et le réécrire. L'ensemble du processus est plus long et consomme plus d'énergie.

La puce H1C grave le contenu du livre directement sur la paroi de la puce (réalisée via des transistors et un câblage fixe). Une fois la puce allumée, le circuit lui-même se transforme en modèle et le flux de données suit un chemin fixe sans lire la mémoire de manière répétée. Cela équivaut à ce que la puce elle-même soit le modèle.

En parlant de cela, cette technologie est en fait très similaire aux réseaux de portes des années 1990. L'innovation de Taalas réside dans l'utilisation de cette technologie ancienne pour aborder la complexité câblée causée par la rareté et la quantification des paramètres LLM.

Le principe technique du chip-as-model :

La majeure partie de cette approche de solidification au niveau matériel est basée sur des ASIC structurés et des masques personnalisés. L'idée principale est de graver les poids et les structures de calcul du modèle directement dans la puce de silicium à l'aide de transistors et de lignes métalliques.

Taalas a d'abord réalisé une base de puce presque complète (environ 100 couches de structure métal/transistor). La majeure partie de la logique et du stockage est terminée, ne laissant que les deux dernières couches de métal (masque) pour la personnalisation finale.

La modification de ces deux couches de métal peut écrire les poids du modèle spécifique et une partie du chemin du flux de données. C'est comme le motif des deux dernières couches de feuille de cuivre sur un circuit imprimé qui détermine les fonctions spécifiques. Le coût et le temps sont bien inférieurs à ceux d’une refonte complète de la puce.

L'entreprise a conçu une structure spéciale capable de stocker des poids de 4 bits et d'effectuer des opérations de multiplication avec très peu de transistors. Les poids ne sont pas écrits dans une mémoire morte, mais des valeurs codées en dur comme dans la mémoire morte ROM en utilisant un masque pour déterminer si le transistor est conducteur ou non.

Dans les calculs réels, il n'est pas nécessaire de lire les poids, les multiplicateurs et les additions. Au lieu de cela, le circuit effectue lui-même les opérations de multiplication et d'addition, car les connexions du circuit et les transistors ont été configurés en fonction des poids. Le peu de flexibilité restant repose sur la SRAM (mémoire vive statique à grande vitesse) pour stocker le cache de contexte.

Inconvénients de la gravure du modèle dans la puce :

Les spécialistes en informatique devraient déjà savoir, grâce aux principes techniques ci-dessus, que cette technologie présente également des inconvénients fondamentaux, c'est-à-dire que le modèle ne peut pas être modifié ou mis à niveau après avoir été gravé dans la puce, c'est-à-dire que la puce ne peut utiliser que ce modèle.

La première puce HC1 est gravée avec la version Llama 3.1 8B, ce qui signifie que cette puce ne peut utiliser ce modèle qu'à partir du début du tape-out. Cependant, l’industrie actuelle de l’IA se développe très rapidement et divers nouveaux modèles émergent en continu. Cette approche consistant à ne pas pouvoir modifier et mettre à niveau le modèle constitue le plus gros inconvénient.

Cependant, Taalas a déclaré que l'ensemble du processus de personnalisation des puces via un masque métallique à deux couches ne prend qu'environ 2 mois, ce qui signifie qu'au moins du point de vue des puces, il est relativement facile de concevoir de nouvelles puces et d'exécuter de nouveaux modèles. Cela devrait contribuer à réduire les coûts, et les clients devront peut-être continuer à acheter des puces itératives en fonction de leurs propres besoins.