Il est rapporté qu'OpenAI n'est pas satisfait des performances de certaines puces NVIDIA AI et discute d'alternatives aux puces d'inférence »

OpenAI s'est récemment montré insatisfait des performances de certaines puces d'intelligence artificielle de dernière génération de NVIDIA dans le processus d'inférence, en particulier dans des cas d'utilisation spécifiques tels que le développement de logiciels et l'interaction de modèles avec d'autres systèmes logiciels. Elle estime que le matériel existant ne peut pas répondre à la demande en termes de vitesse de réponse et recherche donc systématiquement des alternatives depuis l'année dernière. Cela complique la relation entre la société de modélisation d’IA la plus connue et un fournisseur principal sur lequel elle s’appuie depuis longtemps.

Le rapport souligne que même si Nvidia domine toujours le domaine des GPU pour la formation de grands modèles, l'orientation stratégique d'OpenAI se concentre sur l'étape d'inférence, qui est la partie de l'opération où le modèle fournit des réponses aux utilisateurs finaux. Dans ce lien, les performances de latence et de débit sont directement liées à l'expérience utilisateur et à la structure des coûts. OpenAI espère donc que certaines charges de travail pourront être transférées vers de nouvelles puces plus adaptées aux scénarios d'inférence à bande passante élevée et à faible latence.

OpenAI et NVIDIA proposaient à l'origine un accord d'investissement et d'approvisionnement d'une valeur d'environ 100 milliards de dollars : NVIDIA prévoyait d'échanger ses investissements contre des capitaux propres dans OpenAI tout en lui fournissant des ressources de puces avancées à grande échelle au cours des prochaines années. Cet accord, qui était considéré comme un « accord conclu » par le monde extérieur, devait initialement être finalisé prochainement, mais les négociations ont maintenant été retardées de plusieurs mois. D'une part, c'est parce qu'OpenAI a signé de nouveaux accords d'achat ou de coopération de GPU avec des fabricants tels qu'AMD, et d'autre part, les changements dans sa feuille de route de produits ont affecté la demande en termes de type et de proportion de ressources informatiques.

Dans leurs déclarations publiques, les deux parties font de leur mieux pour maintenir une image positive de leur relation de coopération. Le PDG de NVIDIA, Jen-Hsun Huang, a récemment nié l'existence de relations tendues avec OpenAI, qualifiant les allégations de discorde de « non-sens total » et soulignant que la société envisageait toujours de réaliser des investissements à grande échelle dans OpenAI ; NVIDIA a déclaré que les clients continuent de choisir ses produits pour les charges de travail d'inférence car ils bénéficient toujours d'avantages en termes de performances et de coût total de possession. Un porte-parole d'OpenAI a également déclaré que la société s'appuie toujours sur NVIDIA pour « la grande majorité » de ses clusters d'inférence, estimant que ce dernier est toujours en tête en termes de performances d'inférence et de rentabilité.

Cependant, plusieurs sources proches du dossier ont révélé qu'OpenAI n'est pas satisfait de la vitesse du matériel Nvidia sur certaines catégories de tâches d'inférence, et estime que son expérience dans des produits tels que la génération de code est limitée. À cette fin, OpenAI prévoit d’introduire un nouveau matériel capable de répondre à environ 10 % des futurs besoins en puissance de calcul d’inférence en complément des clusters GPU existants. En cours de route, la société a été en pourparlers avec des startups telles que Cerebras et Groq, dans l'espoir de tirer parti de leur expertise en matière d'accélération d'inférence.

Sur le plan technique, OpenAI se concentre sur les architectures qui intègrent autant de mémoire statique sur puce (SRAM) que possible dans la même puce. Ce type de conception peut considérablement raccourcir le chemin permettant aux unités de calcul d'accéder aux paramètres et aux données intermédiaires, améliorant ainsi la vitesse de réponse des chatbots et autres systèmes d'IA lors du traitement de demandes massives. En revanche, les GPU traditionnels de Nvidia et AMD s'appuient sur une mémoire vidéo externe, ce qui augmente la latence d'accès à la mémoire pendant la phase d'inférence, laissant la puce dans un état « d'attente de données » pendant une longue période.

Ce goulot d'étranglement apparaît de manière plus intuitive au sein d'OpenAI, dans ses produits de programmation destinés aux programmeurs. Certaines personnes au sein de l'entreprise attribuent certaines des lacunes de l'expérience à l'architecture matérielle basée sur GPU et estiment que pour satisfaire la grande sensibilité des utilisateurs professionnels à la vitesse, ils doivent rechercher des puces d'inférence présentant des avantages structurels. Le PDG Sam Altman a également déclaré lors d'une communication avec les médias fin janvier que les utilisateurs d'entreprise « accorderont une importance extrêmement élevée » à la vitesse lorsqu'ils utiliseront le modèle basé sur le code, tandis que les utilisateurs de chatbots ordinaires ont une tolérance relativement plus élevée en matière de vitesse de réponse.

Afin d'améliorer la vitesse d'inférence, OpenAI a récemment conclu une coopération avec Cerebras, qui lui fournit une plate-forme informatique de nouvelle génération, considérée comme un élément important pour répondre aux besoins de faible latence des clients haut de gamme. Dans le même temps, des experts du secteur ont souligné que des concurrents tels que Claude d'Anthropic et Gemini de Google s'appuient davantage sur l'unité de traitement tensoriel (TPU) développée par Google pour leur déploiement. Ce type de puce dédiée présente certains avantages en termes de performances par rapport aux GPU à usage général dans les tâches de raisonnement et d'inférence complexes, et a également accru la pression sur Nvidia dans le nouveau cycle de concurrence sur le matériel d'IA.

Face à l'évolution des demandes des clients et à la nouvelle concurrence, NVIDIA prend également l'initiative et a contacté un groupe de sociétés de puces se concentrant sur l'architecture SRAM à large bande passante, dont Cerebras et Groq, pour explorer la possibilité d'acquisitions ou de coopération approfondie. Cerebras a finalement rejeté l'option d'acquisition et a plutôt signé un accord commercial avec OpenAI ; Groq a déjà négocié avec OpenAI pour fournir des services informatiques et a suscité l'intérêt des investisseurs pour l'injection de capitaux pour une valorisation d'environ 14 milliards de dollars américains.

Cependant, en décembre de l'année dernière, Nvidia a conclu un accord de licence non exclusive pour la technologie Groq pour un montant d'environ 20 milliards de dollars, et a successivement débauché l'équipe de conception de puces de Groq. Après cette transaction, l'activité de Groq s'est déplacée vers la vente de logiciels cloud, et Nvidia l'a considéré comme un complément important à sa propre feuille de route de produits pour combler les lacunes de la technologie d'accélération d'inférence dans le secteur de l'IA en évolution rapide.