Après des années de production de puces pouvant être utilisées à la fois pour la formation et l'inférence de modèles d'intelligence artificielle, Google divise les deux tâches en différents processeurs, sa dernière initiative pour concurrencer Nvidia dans le domaine du matériel d'IA. Google a annoncé mercredi qu'il apporterait ce changement à son unité de traitement tensoriel (TPU) de huitième génération, les deux puces devant être lancées plus tard cette année.

Amin Wahdat, vice-président senior et directeur de la technologie de l'intelligence artificielle et de l'infrastructure de Google, a déclaré dans un article de blog : « Avec l'essor des agents d'IA, nous pensons que l'industrie bénéficiera de puces professionnellement personnalisées pour les besoins de formation et de déploiement. »
En mars de cette année, Nvidia a fait la promotion de son prochain produit de puce, qui permettrait aux modèles de répondre rapidement aux questions des utilisateurs grâce à la technologie acquise lors de l'acquisition de 20 milliards de dollars de la start-up de puces Groq. Google est un gros client de Nvidia, mais il propose également des TPU comme alternative aux entreprises utilisant ses services cloud.
La plupart des plus grandes entreprises technologiques du monde développent des semi-conducteurs spécifiques à l'intelligence artificielle pour maximiser l'efficacité informatique et répondre aux besoins de scénarios d'application spécifiques. Apple développe depuis de nombreuses années ses propres composants d'IA de moteur de réseau neuronal dans les puces iPhone ; Microsoft a lancé sa puce IA de deuxième génération en janvier de cette année ; la semaine dernière, Meta a annoncé sa coopération avec Broadcom pour développer une variété de processeurs d'IA.
Google est un pionnier dans cette tendance. En 2015, Google a commencé à utiliser des puces auto-développées pour exécuter des modèles d’IA et, en 2018, il a ouvert la location aux clients de services cloud. Amazon Cloud Technology a lancé la puce Inferentia pour traiter les demandes d'IA en 2018 et le processeur Trainium pour la formation des modèles d'IA en 2020.
Les analystes de l'institution d'investissement DADavidson ont estimé en septembre de l'année dernière que la valeur totale de l'activité TPU et de l'équipe Google DeepMind AI était d'environ 900 milliards de dollars.
À l'heure actuelle, aucun géant de la technologie ne peut remplacer Nvidia, et Google n'a même pas comparé les performances de la nouvelle puce avec les produits du leader des puces IA. Cependant, Google a déclaré que les performances de la nouvelle puce de formation sont 2,8 fois supérieures à celles du TPU Ironwood de septième génération sorti en novembre de l'année dernière, et que le prix est le même ; les performances de la puce d'inférence sont augmentées de 80 %.
Nvidia a déclaré que son prochain matériel Groq3LPU utilisera de grandes quantités de mémoire vive statique (SRAM), une technologie également utilisée par le fabricant de puces IA Cerebras, qui a soumis une demande d'inscription plus tôt ce mois-ci. La nouvelle puce d'inférence de Google, nom de code TPU8i, est également équipée de SRAM. La puce unique intègre 384 Mo de SRAM et la capacité est trois fois supérieure à celle d’Ironwood TPU.
Sundar Pichai, PDG d'Alphabet, la société mère de Google, a écrit dans un blog que l'architecture de la puce est conçue pour « atteindre un débit massif et une faible latence de manière rentable afin de répondre aux besoins d'exécution simultanée de millions d'agents ».
L'échelle d'application des puces Google AI s'étend. Google a déclaré que Citadel Securities a construit un logiciel de recherche quantitative basé sur Google TPU et que les 17 laboratoires nationaux du département américain de l'Énergie utilisent un logiciel scientifique collaboratif d'IA développé sur la base de cette puce ; La société d’intelligence artificielle Anthropic s’est également engagée à utiliser plusieurs gigawatts de puissance de calcul Google TPU.