Lors de la conférence GTC d'hier, NVIDIA a présenté un certain nombre de systèmes d'IA et a officiellement lancé une nouvelle puce LPU, le Groq 3 LPU, qui est le produit de l'acquisition de la technologie Groq pour 20 milliards de dollars l'année dernière. Comparé aux puces GPU IA qui se concentrent sur la formation intensive de modèles, Groq 3 LPU est conçu pour l'inférence IA et présente les avantages d'une faible latence et d'un contexte long. Il peut être utilisé conjointement avec Vera Rubin pour prendre en charge l’ensemble du processus d’IA.

La bonne nouvelle est que cette puce LPU devrait également être utilisée en Chine.Les médias étrangers ont cité des sources affirmant que NVIDIA se préparait à lancer une puce Groq qui pourrait être vendue sur le marché intérieur.

Contrairement aux puces GPU précédentes, dont les performances devaient être réduites avant de pouvoir être exportées,Cette fois, la puce Groq n'aura pas de spécifications castrées, et il ne s'agit pas d'une version spéciale domestique comme le H20.

Sans castration ni approvisionnement spécial, ces puces Groq réduiront évidemment beaucoup la résistance lorsqu'elles seront vendues sur le marché intérieur. Cependant, le plus gros problème est de savoir si ce projet pourra passer l’examen américain. Cela dépend de la manière dont Huang Renxun persuade le président américain.

Mais cela dit, même si NVIDIA ne fournit pas de puces Groq spécifiquement à la Chine, il est difficile de dire que les puces Groq lancées en Chine à l'avenir seront le LPU Groq 3 sorti hier, car les performances et les spécifications actuelles de ce dernier sont également très solides.

La puce unique de ce produit s'appelle LPU30, fabriquée par Samsung OEM, intégrant 500 Mo de cache SRAM, 98 milliards de transistors, le caractère FP8 1,2PFLOPS, les performances informatiques de l'IA sont bien inférieures à celles du GPU Rubin, mais la bande passante de 150 To/s est bien supérieure aux 22 To/s du HBM4.

La puce Groq 3 LPU apparaîtra sous la forme du rack Groq 3 LPX, pouvant intégrer 256 puces LPU30 avec une capacité de cache de 128 Go.La bande passante mémoire totale a été augmentée à 40 Po/s, la bande passante d'interconnexion est également de 640 To/s.

En général, le LPU ne peut pas se comparer au GPU en termes de puissance de calcul de l'IA, mais la bande passante de la SRAM bat sans aucun doute celle du HBM4 et la latence est inférieure. Les deux puces conviennent à des situations différentes. La question n’est pas de savoir qui remplace l’autre. Les ventes de LPU vont exploser à l’avenir.