Bien que NVIDIA soit actuellement sans égal dans le domaine de la formation en IA, face à la demande croissante de raisonnement en temps réel, elle envisage une « arme secrète » qui pourrait changer le paysage industriel. Selon AGF,NVIDIA prévoit d'intégrer le LPU (Language Processing Unit) de Groq dans le GPU à architecture Feynman lancé en 2028 pour améliorer considérablement les performances d'inférence de l'IA.
L'architecture Feynman succédera à l'architecture Rubin et utilisera le processus A16 (1,6 nm) le plus avancé de TSMC. Afin de dépasser les limites physiques des semi-conducteurs, NVIDIA prévoit d'utiliser la technologie de liaison hybride SoIC de TSMC pour empiler des unités LPU spécialement conçues pour l'accélération d'inférence directement sur le GPU.

Cette conception est similaire à la technologie 3D V-Cache d'AMD, mais NVIDIA n'empile pas des caches ordinaires, mais des unités LPU spécialement conçues pour l'accélération d'inférence.
La logique fondamentale de la conception est de résoudre le dilemme de mise à l’échelle de la SRAM. Sous le processus extrême de 1,6 nm, l'intégration d'un grand nombre de SRAM directement sur la puce principale est extrêmement coûteuse et prend de la place.
Grâce à la technologie d'empilement, NVIDIA peut conserver le cœur de calcul sur la puce principale et empiler la SRAM qui nécessite une grande surface dans une autre couche de puces.
Une caractéristique majeure du processus A16 de TSMC est qu'il prend en charge la technologie d'alimentation arrière. Cette technologie peut libérer de l'espace sur la face avant de la puce pour les connexions de signaux verticales, garantissant ainsi que les LPU empilés peuvent effectuer un échange de données à grande vitesse avec une consommation d'énergie extrêmement faible.

Combinés à la logique d'exécution « déterministe » du LPU, les futurs GPU NVIDIA réaliseront un saut qualitatif en termes de vitesse lors du traitement des réponses instantanées de l'IA (telles que le dialogue vocal, la traduction en temps réel).
Cependant, il existe également deux défis potentiels, à savoir les problèmes de dissipation thermique et les problèmes de compatibilité CUDA., en ajoutant une couche de puces à un GPU avec une densité de calcul extrêmement élevée, comment éviter les « crashs thermiques » est le problème numéro un de l'équipe d'ingénierie.
Dans le même temps, LPU met l'accent sur un ordre d'exécution « déterministe » et nécessite une configuration précise de la mémoire, tandis que l'écosystème CUDA est conçu sur la base de l'abstraction matérielle. Pour obtenir une synergie parfaite entre les deux, une optimisation logicielle de haut niveau est nécessaire.