NVIDIA lance une solution de « coaching » autonome d'IA pour entraîner des robots à installer des GPU et à couper les attaches de câbles dans le laboratoire

Le 17 juin, heure locale des États-Unis, le General Embodied Agent Research Laboratory (GEAR Lab) de NVIDIA a annoncé un nouveau plan d'auto-amélioration du robot : grâce à une « équipe de coaching » composée d'agents de programmation IA, un processus de formation est conçu pour le bras du robot avec presque aucune intervention humaine, afin que le robot puisse apprendre à couper des attaches en plastique, à organiser de petites pièces et même à insérer avec précision le GPU dans le connecteur d'extension de la carte mère.

Cette solution est basée sur un « harnais d'agents » appelé ENPIRE : il s'agit comme d'un shell logiciel enroulé autour du grand modèle, permettant aux agents de programmation d'IA d'appeler divers outils et de disposer de capacités de mémoire, de gestion de contexte, de contrôle de contraintes et de boucles de rétroaction pour planifier, exécuter, évaluer et itérer automatiquement les tâches de formation des robots. Nvidia a déclaré que le cadre avait été développé par l'équipe du GEAR Lab en collaboration avec des chercheurs de l'Université Carnegie Mellon et de l'Université de Californie à Berkeley.

Jim Fan, responsable de NVIDIA AI, a décrit sur les plateformes sociales qu'une partie du laboratoire peut désormais « s'auto-améliorer » la nuit, et que les chercheurs n'ont qu'à consulter le rapport d'entraînement le matin pour comprendre les progrès du robot la veille. Il a déclaré en plaisantant à moitié que dans un monde idéal, « tout le monde partirait en vacances et Huang Renxun ne le saurait pas », et a déclaré que l'équipe prévoyait d'ouvrir la source des résultats pertinents afin que chacun puisse construire son propre « laboratoire de robots autonomes » chez lui.

Le framework ENPIRE comprend actuellement quatre modules de base : premièrement, il fournit une réinitialisation automatique et une vérification des résultats pour les tâches du robot ; Deuxièmement, il optimise automatiquement les stratégies de contrôle des robots ; Troisièmement, il évalue différentes stratégies en parallèle sur plusieurs robots physiques ; Quatrièmement, il gère les cas d'échec lors de la formation en analysant les journaux, en lisant des articles et en améliorant l'infrastructure de formation et les codes algorithmiques. L'équipe de recherche a publié un article technique le 16 juin détaillant les détails de mise en œuvre et les résultats expérimentaux du système.

Dans l'expérience, les chercheurs ont introduit trois types d'agents de programmation d'IA traditionnels : des agents basés sur OpenAI Codex et GPT‑5.5, des agents basés sur Anthropic Claude Code Opus 4.7 et des agents basés sur Dark Side of the Moon (Moonshot AI) Kimi Code K2.6. Ces agents proposeront indépendamment différents plans d'amélioration des algorithmes en équipe, mèneront des expériences de formation sur de vrais robots, puis retiendront les modifications susceptibles d'améliorer le taux de réussite global et continueront à itérer.

Les résultats montrent que sous la planification d'ENPIRE, les agents de programmation d'IA peuvent concevoir automatiquement des stratégies d'auto-amélioration efficaces pour une variété de tâches d'opération de bras robotique : dans la tâche d'opération de bureau Push-T standard, le robot doit pousser avec précision des blocs de construction en forme de T vers la zone cible ; dans d'autres tâches, le robot doit organiser de petites aiguilles dans la boîte à aiguilles, attacher et couper des attaches en plastique, ou insérer le GPU dans l'emplacement de la carte mère et le retirer pour le réinitialiser après chaque série de tests. Sur plusieurs tâches, le système a finalement atteint un taux de réussite de 99 %, le programme de formation basé sur l'IA atteignant un taux de réussite de près de 100 %, encore plus rapide que « l'approche participative humaine de pointe » impliquant des humains sur les tâches d'insertion et de tri des broches.

Les expériences montrent également que l’augmentation du nombre d’agents peut considérablement accélérer le processus d’apprentissage : sur la tâche Push‑T, une équipe de 8 agents a poussé le taux de réussite à 99 % en seulement 2 heures de recherche, alors qu’une équipe de 4 a eu besoin de 3 heures et un seul agent près de 5 heures pour atteindre le même niveau. Cependant, les chercheurs ont également remarqué que l’efficacité de la collaboration multi-agents ne s’améliore pas de manière linéaire. À mesure que le nombre d’agents augmente, plus de temps est consacré à résumer et à communiquer entre eux plutôt qu’à planifier réellement les robots pour qu’ils effectuent la formation.

L'équipe de recherche a également souligné plusieurs limites du système actuel : pendant de nombreuses périodes, le robot reste inactif sur le banc expérimental, attendant que l'agent de programmation de l'IA lise les journaux, écrive et débogue le code, ou attend que le modèle de langage sous-jacent réponde. De plus, en termes de formation parallèle, les agents n’utilisent parfois pas pleinement les ressources informatiques existantes, ce qui entraîne un débit expérimental inférieur à la limite supérieure théorique. Du point de vue des coûts, l'augmentation du nombre d'agents et de la fréquence de formation signifie également une consommation de jetons nettement plus élevée, ce qui est directement lié au fait que de nombreux fournisseurs de services d'IA envisagent actuellement d'augmenter la méthode de facturation basée sur les jetons.

Même si des lacunes subsistent, Nvidia augmente clairement ses ambitions pour ce qu'il appelle « l'IA physique ». Grâce aux flux de trésorerie abondants apportés par la vague de l'IA, l'entreprise continue d'investir dans de multiples projets de robots : fin mai de cette année, NVIDIA a annoncé qu'elle coopérerait avec Unitree, un concurrent de la société chinoise de robots Unitree, pour fournir aux instituts de recherche une « plateforme universelle de référence de robots humanoïdes » pour la recherche et le développement de robots d'IA généraux. Début juin de cette année, Huang Renxun a effectué une visite intensive en Corée du Sud et a rencontré le président exécutif du groupe Hyundai Motor, Chung Eui-sun, pour discuter de la manière d'étendre la fabrication à grande échelle de robots IA ; Hyundai a précédemment acquis Boston Dynamics, une société américaine célèbre pour son « chien robot » à quatre pattes Spot, et promeut la commercialisation du robot humanoïde bipède Atlas.

Sur cette voie, ENPIRE et l'équipe d'agents de programmation d'IA qui la sous-tendent sont considérés comme des éléments clés du « laboratoire de robots autonomes ». Ils tentent de confier à l'IA une grande partie du travail des experts humains en matière d'essais et d'erreurs, d'ajustement des paramètres et de lecture de la littérature, permettant aux chercheurs de jouer davantage un rôle de « révision quotidienne du matin ». Avec l'open source des codes et des cadres pertinents, la question de savoir si des systèmes de formation autonomes similaires deviendront populaires à l'avenir parmi les universités, les entreprises et même les passionnés individuels deviendra une fenêtre importante pour observer la vitesse de mise en œuvre de « l'IA physique ».