Le dernier test d'inférence grand modèle GPT de MLPerf est publié ! Cette société nationale de puissance de calcul se classe à nouveau au premier rang mondial, avec des performances jusqu'à 1,8 fois supérieures à celles du NVIDIA H100. Alors que les applications AIGC telles que ChatGPT ont déclenché une vague de grands modèles, la couche de puissance de calcul, en tant qu'infrastructure, est devenue la première industrie à en bénéficier.

Cependant, des problèmes tels qu'une demande élevée en puissance de calcul et des coûts élevés sont devenus des problèmes courants pour les entreprises qui mettent en œuvre de grands modèles, et sont plus susceptibles de restreindre le développement de l'IA : les paramètres des grands modèles augmentent de jour en jour, tandis que les goulots d'étranglement de l'alimentation en énergie de calcul sont imminents, créant une énorme contradiction entre les deux.

Comment explorer de meilleures solutions de puissance de calcul sur grands modèles est au centre de l'industrie.

Récemment, l'évaluation faisant autorité au monde, MLPerf, a annoncé les derniers résultats de l'évaluation d'inférence. C'est la première fois que MLPerf introduit le test d'inférence sur grand modèle GPT. Le taux de participation a atteint un nouveau record, avec plus de 13 500 résultats de performances soumis par NVIDIA, Intel, Google, Qualcomm et d'autres sociétés.

Dans MLPerfInference3.1, la carte informatique MoffetAI S30 a été classée première sur le grand modèle GPT-J (6 milliards de paramètres), avec une puissance de calcul pour une seule carte, 4 cartes et 8 cartes en première position.


Il s'agit de la troisième défense de titre consécutive pour Ink Core à MLPerf.

Auparavant, le noyau d'encre avait remporté la première place dans MLPerfInference2.0 et 2.1 pendant deux années consécutives. Les réalisations du noyau Ink ont ​​apporté des orientations innovantes réalisables vers des solutions de puissance de calcul de modèles à grande échelle.

Les faits ont prouvé que l'innovation collaborative de matériel et de logiciels combinant des modèles d'IA et des plates-formes informatiques peut libérer un plus grand potentiel de puissance de calcul. Cela prouve également une fois de plus que les technologies innovantes représentées par le Sparse Computing seront la clé du développement de la puissance de calcul à l'ère des grands modèles.

Le noyau d'encre participe à la partition ouverte MLPerf. Selon l'organisateur MLCommons, cette cloison est conçue pour encourager l'innovation. Par conséquent, les candidats peuvent explorer les moyens d’améliorer la puissance de calcul grâce à la collaboration logicielle et matérielle.

Sur le grand modèle GPT-J dans MLPerf, par rapport à la solution d'accélération matérielle pure H100 du processus 4 nm, la carte informatique Ink Core S30 du processus 12 nm a obtenu un avantage jusqu'à 1,8 fois grâce à l'approche « double algorithme clairsemé original + collaboration matérielle ».

Le modèle GPT-J dans cette évaluation est un modèle d'IA génératif. Les performances de la carte informatique Ink Core S30 en modes 8 cartes, 4 cartes et carte unique sont respectivement de 170,5. 9, 91,57, 23,28 (échantillon/s), atteignant 1,6 fois, 1,8 fois et 1,8 fois les performances de NVIDIA H100, démontrant les capacités des produits de base d'encre dans les tâches AIGC.


a remporté le championnat à trois reprises. La puissance de calcul du grand modèle a été la première à « soumettre le document », et la collaboration logicielle et matérielle a continué d'innover. La force du produit Ink Core a été rigoureusement testée par MLPerf à plusieurs reprises, et il a également exploré une nouvelle voie pour le développement de la puissance de calcul des grands modèles.

01

Rare Sparse computing - le "stock potentiel" de grands modèles a gagné le marché reconnaissance

Les excellents résultats du noyau d'encre sont principalement dus à la conception collaborative de logiciels et de matériel basée sur un algorithme clairsemé.

À l'ère des grands modèles, l'importance du calcul parcimonieux est évidente : la taille d'un modèle d'IA est directement proportionnelle à son potentiel de parcimonie.

En d’autres termes, lorsque le modèle est plus grand, il existe une plus grande possibilité de parcimonie dans l’algorithme et le degré d’accélération des calculs clairsemés est également plus élevé. Pour les grands modèles de langage généraux, le calcul clairsemé peut apporter une accélération des dizaines de fois.

L'algorithme double clairsemé original d'Inkcore, combiné à une conception collaborative logicielle et matérielle, fait de la puce Antoum® d'Inkcore la première puce IA à fort grossissement au monde, prenant en charge jusqu'à 32 fois la clairsemé. C'est la clé du record d'Inkcore dans ce MLPerf.

Plus le modèle est grand, plus l'avantage du calcul clairsemé est évident - en particulier dans la situation actuelle où les paramètres des grands modèles tels que GPT atteignent souvent des dizaines de milliards ou des centaines de milliards, ce qui rend le fossé du noyau d'encre plus stable.

La force du produit du noyau d'encre et la tendance générale à l'informatique clairsemée ont également été reconnues par l'industrie : Le processus de commercialisation du noyau d'encre a réalisé des percées importantes les unes après les autres, aidant les entreprises à accélérer les applications d'IA.

Tout récemment, Ink Core est officiellement devenu l'un des fournisseurs prenant en charge ByteMLPerf.


Source : Site Web ByteMLPerf

Adresse du projet : https://github.com/bytedance/By teMLPerf/blob/main/README.md

Actuellement, la plate-forme informatique Ink Core AI peut prendre en charge de grands modèles de différents niveaux de paramètres, notamment BLOOM, OPT, GPT-J, LLaMA, StableDiffusion, etc.

En même temps, il a les caractéristiques d'un débit élevé, d'une faible latence et d'une faible consommation d'énergie, ce qui atténue la difficulté de puissance de calcul et apporte véritablement aux entreprises des solutions de puissance de calcul de grand modèle « faciles à utiliser » et « abordables ».

02

apporte des changements fondamentaux dans la puissance de calcul, et le calcul clairsemé aide le développement du modèle Lida

La solution informatique clairsemée du noyau d'encre peut non seulement atténuer le problème actuel de puissance de calcul, mais également ouvrir un nouvel espace pour le développement durable de l'IA.

Le calcul clairsemé réduit la quantité de calcul des modèles d'IA, ce qui signifie que les grands modèles peuvent augmenter le nombre de paramètres de plusieurs ordres de grandeur sans générer trop de quantité de calcul. La contradiction entre la croissance des paramètres du grand modèle et les goulots d'étranglement de la puissance de calcul devrait être fondamentalement résolue.

Dans le même temps, en raison de la réduction du montant de calcul, les ​​problèmes liés aux exigences élevées en matière de puissance de calcul, à la consommation d'énergie élevée et au coût élevé des grands modèles ont également été résolus, obtenant un effet « gagnant-gagnant ».


Puce Antoum à noyau d'encre : la première puce AI à grossissement très clairsemé au monde, prenant en charge jusqu'à 32 fois clairsemée

TAGPH5 2Le les excellents résultats de trois MLPerfs consécutifs prouvent non seulement la force des produits de base d'encre, mais apportent également de nouvelles révélations à l'industrie : Avec l'aide de technologies telles que l'informatique parcimonie, le développement et l'application de grands modèles devraient ouvrir la voie à un espace de développement plus large, accélérant la prolifération de l'AIGC et d'autres applications dans tous les domaines.

03

TAGPH 59À propos de MLPerf

MLPerf Initié par David Patterson, lauréat du prix Turing, en collaboration avec des institutions universitaires de premier plan telles que Google, Stanford et l'Université Harvard, il s'agit du test de référence international de performance de l'IA le plus faisant autorité et le plus influent pour effectuer un suivi et une évaluation en temps opportun des exigences et des performances informatiques en croissance rapide de l'IA.