Dans une région poussiéreuse des prairies d'Abilene, au Texas, les ingénieurs matériels d'OpenAI et de Crusoe, l'entrepreneur du centre de données d'Oracle, ont travaillé des heures supplémentaires pendant des jours pour faire fonctionner plusieurs unités de turbine à gaz de manière stable avec le supercalculateur d'IA le plus cher de l'histoire.

Une unité de turbine à gaz est installée à côté du centre de données Stargate AI construit par Oracle et OpenAI à Abilene, au Texas.
Une unité de turbine à gaz est installée à côté du centre de données Stargate AI construit par Oracle et OpenAI à Abilene, au Texas.

Un certain nombre de personnes familières avec le projet, d'ingénieurs résidents et d'experts en réseau électrique ont révélé que le projet faisait partie du projet d'infrastructure de puissance de calcul OpenAI Stargate, et que la difficulté globale de mise en œuvre et l'investissement en capital étaient bien au-delà des attentes initiales.

La base d’Abilene a longtemps été considérée comme une référence pour la construction mondiale de centres de données d’IA. Oracle, le client de Crusoe, a déployé ici des serveurs pour OpenAI, consommant au moins des centaines de mégawatts d'énergie ; la société prévoit de déployer davantage de puces dans de nouveaux bâtiments cet été, avec une puissance totale pouvant atteindre 1,2 gigawatts, ce qui est suffisant pour répondre aux besoins d'éclairage de toute la ville de San Francisco.

Mais le premier problème est d’assurer une alimentation électrique ininterrompue. Des personnes proches du dossier ont déclaré qu'en raison de multiples problèmes tels que des pannes du système de refroidissement, des anomalies des unités de turbine et de nouvelles réglementations de contrôle des fluctuations du réseau qui seront introduites par l'agence de régulation du réseau électrique du Texas, Crusoe a dû suspendre ses opérations par étapes pour éviter de multiples risques pour l'équipement, la main-d'œuvre et le capital.

En plus de diverses difficultés opérationnelles sur le site du projet, tous les fabricants d'infrastructures d'IA sont confrontés à des coûts hors de contrôle. Il y a quelques semaines, Chase Rockmiller, PDG de Crusoe, a révélé lors d'une conférence à l'Université de Stanford que le coût de construction d'une « centrale électrifiée principale » pour un centre de données de 1 gigawatt s'élève à 19,2 milliards de dollars, couvrant les principaux matériaux de construction, les équipements mécaniques et électriques, les centrales électriques à gaz et tous les coûts de main d'œuvre.

Ce chiffre a fortement augmenté par rapport aux devis pour des projets présentant les mêmes spécifications il y a deux ou trois ans : sous le boom de l’informatique IA, les salaires techniques des entrepreneurs ont généralement augmenté de 30 % et les coûts de main-d’œuvre ont représenté près d’un quart de l’investissement total. "La concurrence pour la main-d'œuvre technique dans l'industrie n'a jamais été aussi féroce", a déclaré Rockmiller.

Le coût des autres équipements matériels de support a également grimpé en flèche. Il a expliqué aux étudiants que le coût d'une centrale électrique au gaz d'un seul gigawatt avait presque triplé au cours des dernières années, pour atteindre jusqu'à 3 milliards de dollars ; les données de la Banque fédérale de réserve de Saint-Louis montrent que le prix des transformateurs et des appareillages de commutation a augmenté de 80 % depuis 2020. Le coût d'achat des puces et des équipements de support de serveur requis pour un centre de données de 1 GW s'élève également à environ 40 milliards de dollars américains.

À l'heure actuelle, le plan de partage des coûts de Crusoe, Oracle, OpenAI et d'autres partenaires n'a pas été divulgué ; en cas de dépassements budgétaires et de retards de construction, il n’existe pas de conclusion claire sur les entités juridiques responsables concernées. Un porte-parole de Crusoé a répondu que le budget de l'entreprise prévoyait des réserves de risque pour faire face à diverses urgences.

Une chose est très claire : le cycle mondial de construction de centres de données s'allonge généralement et les trois facteurs que sont l'allongement du cycle d'approbation de l'utilisation des sols, la pénurie d'équipements de base et la pénurie de main-d'œuvre continuent de ralentir les progrès. Les économistes de JP Morgan ont publié le mois dernier un rapport indiquant que les images satellite montrent que plus de 60 % des centres de données initialement prévus pour être mis en service avant 2027 n'ont pas encore commencé leur construction, et que 7 % supplémentaires des calendriers de projets ont été retardés, ce qui indique que le rythme de l'expansion de l'industrie pourrait ralentir.

Le travail de dépannage de Crusoe à la base d'Abilene a également sonné un avertissement à l'ensemble de l'industrie : il n'y a pas de place pour la négligence dans la construction de centres de données hyperscale à l'échelle du gigawatt. Toute erreur peut entraîner une surchauffe et des dommages aux copeaux, la rupture des aubes de turbine et des arbres d'entraînement, des blessures aux ouvriers du bâtiment ou des blessures dues à un choc électrique, ou une brûlure complète des équipements de support du réseau électrique.

Chase Rockmiller, PDG de Crusoé
Chase Rockmiller, PDG de Crusoé

De multiples difficultés telles que les goulots d'étranglement de l'alimentation électrique et les nouvelles contraintes réglementaires sont également les principales raisons pour lesquelles les sociétés d'IA telles que OpenAI et Anthropic déclarent qu'elles ne sont pas en mesure d'obtenir une puissance de calcul suffisante à partir des centres de données nouvellement construits et d'itérer de nouvelles technologies à la vitesse attendue.

Crusoé est établi depuis huit ans. À ses débuts, elle comptait sur l’énergie gaspillée pour exploiter les mines de crypto-monnaie. En 2022, il se transformera entièrement en une piste d'infrastructure d'IA. La valorisation du capital-investissement de la société a dépassé les 10 milliards de dollars il y a sept mois, et les dernières nouvelles montrent que son cycle de financement pré-IPO devrait être évalué entre 300 et 400 milliards de dollars. Les dirigeants d'entreprise qui ont travaillé avec Crusoe ont donné des critiques positives à son équipe de direction, affirmant que l'équipe a considérablement accéléré l'efficacité de la construction industrielle et résolu de manière flexible divers problèmes liés à la mise en œuvre et à la supervision du projet.

Crusoe a officiellement publié une déclaration disant : « Les caractéristiques de demande de puissance des charges informatiques d'IA sont fondamentalement différentes de la logique d'adaptation de conception des alimentations de secours traditionnelles dans le secteur de l'énergie. Il s'agit d'un problème d'ingénierie majeur que l'ensemble du secteur doit surmonter.

En tant que pionnier dans le domaine des centres de données d'IA, les différents dangers cachés exposés par le projet Crusoe équivalent au déminage à l'avance pour l'ensemble de l'industrie. Semblable au précédent déploiement par Tesla de batteries de stockage d’énergie pour résoudre les chocs d’impulsions de puissance dans le centre de données xAI (maintenant fusionné avec SpaceX).

Un autre fabricant d'infrastructures local du Texas a déclaré que Crusoe avait osé procéder rapidement par essais et erreurs et itérer des solutions en échange d'une vitesse de construction ultime, mais au détriment de coûts d'investissement élevés. Un ancien ingénieur OpenAI familier avec le projet Abilene l'a confirmé. Les initiés du projet ont révélé que la solution d’alimentation de secours initiale de la base n’avait pas une résistance suffisante aux changements brusques de tension et aux oscillations de puissance, et l’équipe a dû modifier plusieurs versions de la conception.

Étant donné que ces turbines à gaz ne sont utilisées que comme alimentation de secours pour le centre de données, elles n'affectent pas la connexion principale entre la base et le réseau électrique public du Texas. Le partenaire du projet, Lancium, est responsable de la construction de la sous-station sur site. Des personnes familières avec la période de construction ont déclaré que l'avancement du projet de sous-station est conforme aux normes, voire en avance sur le calendrier, garantissant qu'OpenAI pourra utiliser jusqu'à 1,2 GW d'énergie externe du réseau cet été.

Cependant, une alimentation électrique suffisante du réseau ne signifie pas qu’OpenAI et Oracle peuvent être utilisés immédiatement à pleine capacité. Les ingénieurs doivent terminer le test de la machine de cuisson des puces du serveur et optimiser simultanément la conception de l'alimentation électrique et du système de refroidissement pour terminer le débogage de l'ensemble du cluster informatique avant l'été. Un ancien ingénieur impliqué dans le projet a révélé qu'au début de l'année, l'unité de réfrigération utilisée pour empêcher la surchauffe et la fonte du serveur à puce (panne thermique) était tombée en panne dans un environnement à basse température, provoquant une interruption de la puissance de calcul pendant près d'une journée entière.

Risques de sortir du réseau

La consommation électrique de la charge de calcul de l’IA varie considérablement entre les millisecondes. Des recherches pertinentes soulignent qu'une gestion et un contrôle inappropriés entraîneront une inadéquation de fréquence (distorsion harmonique), endommageront les appareils électroménagers et les équipements des sous-stations et accéléreront la perte de la batterie du centre de données. Une fois qu'une anomalie dans le réseau électrique est détectée, le centre de données se déconnectera de manière proactive du réseau pour se protéger. En 2024 et 2025, des dizaines de salles informatiques dans le « couloir des centres de données » de Virginie ont été mises hors ligne à deux reprises, déclenchant presque une panne d’électricité régionale.

Au cours de l’été et de l’automne 2024, une ferme minière de crypto-monnaie dans l’ouest du Texas a continué de provoquer de violentes oscillations de puissance sur le réseau électrique en raison d’un défaut du micrologiciel. Le fabricant a réécrit le firmware et le problème a été résolu.

Les opérateurs de réseaux électriques du Texas sont très vigilants à ce sujet. Selon les statistiques de GridMonitor, une agence de suivi des conférences sur les réseaux électriques, cette année seulement, le terme « oscillation de puissance » a été mentionné 80 fois lors de diverses réunions de l'Electric Reliability Council of Texas (ERCOT). L'agence met en œuvre de nouvelles réglementations de contrôle de la distorsion, obligeant les centres de données à être équipés de systèmes de mise en mémoire tampon de puissance et de stabilisation de tension de haute précision. La solution dominante réside dans les batteries de stockage d'énergie, et les fabricants développent simultanément des solutions alternatives telles que de petits groupes électrogènes, des condensateurs et des piles à combustible.

Une autre nouvelle réglementation à mettre en œuvre exige que les centres de données aient la capacité de surmonter les pannes du réseau et de ne pas être directement déconnectés du réseau en cas d'anomalie. La bonne nouvelle est que la conception globale du parc de nouvelle génération est équipée d'une batterie tampon de stockage d'énergie plus efficace, et que le matériel d'IA de support a également été adapté et optimisé. Sean James, architecte du système énergétique chez NVIDIA, a déclaré : « NVIDIA continue d'optimiser les circuits intégrés des serveurs pour améliorer la capacité à tamponner les impulsions de puissance. »

Empêcher la puissance de calcul de l’IA d’avoir un impact sur le réseau électrique a atteint le niveau de supervision unifiée en Amérique du Nord. La North American Electric Reliability Corporation (NERC) a émis un rare avertissement de niveau trois le 4 mai, exigeant que les planificateurs du réseau électrique mettent en œuvre des mesures de rectification de base avant le 3 août pour prouver que le réseau électrique peut supporter de nouvelles charges informatiques ultra-importantes telles que les centres de données d'IA.

Jim Robb, PDG du NERC, a déclaré : « La Silicon Valley a toujours cru aux essais et erreurs rapides, anciens et nouveaux, mais cette logique ne s'applique pas au réseau électrique : toutes les infrastructures nécessaires au fonctionnement de la société dépendent d'une alimentation électrique stable. Le mode de fonctionnement des centres de données et des mines cryptées doit garantir la fiabilité globale du réseau électrique.

Un porte-parole d'Oracle a répondu : « Assurer la stabilité du réseau électrique est le principe de base de la conception du centre de données hyperscale d'Oracle. La société a étroitement coopéré avec Lancium et s'est coordonnée avec les compagnies d'électricité locales pour garantir le fonctionnement sûr du réseau électrique.