NVIDIA « Chercheur de célébrités sur Internet » : le plus grand point culminant en 2024 est « l’intelligence incarnée » des robots dans trois ans

En 2024, outre l’essor continu des grands modèles, le développement des robots marquera également un point culminant. "LLM multimodal utilisant des bras robotiques comme dispositifs physiques d'entrée/sortie, des algorithmes pour combler le fossé entre le Système 1 et le Système 2..." La technologie robotique se développera encore rapidement en 2024.

À la fin de l’année dernière, Jim Fan, « chercheur sur les célébrités Internet » de Nvidia et premier stagiaire d’OpenAI, a tweeté qu’outre les grands modèles, la chose la plus importante en 2024, ce sont les robots. Nous sommes encore à environ trois ans du moment ChatGPT de « l’intelligence incarnée ».

Jim a souligné que les gens ont longtemps été troublés par le « paradoxe de Moravec », qui est un phénomène contre-intuitif pour les gens, c'est-à-dire que « les tâches que les humains trouvent faciles sont extrêmement difficiles pour l'intelligence artificielle, et vice versa ».

Cependant, Jim prédit avec optimisme que 2024 sera la première année où la communauté de l’intelligence artificielle se lèvera pour contrer ce paradoxe. Jim a déclaré : « Nous ne gagnerons pas immédiatement, mais nous serons sur le chemin de la victoire. »

Parallèlement, Jim a énuméré le développement de modèles et de plateformes de base pour les futurs robots en 2023 :

1. LLM multimodal utilisant des bras robotiques comme dispositifs d'entrée/sortie physiques : VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU), etc.

2. Algorithmes qui comblent le fossé entre le Système 1 (responsable du contrôle de bas niveau) et le Système 2 (responsable du raisonnement de haut niveau) (permettant au système d'utiliser un raisonnement de haut niveau pour prendre des décisions et comprendre, et transformer ces décisions en opérations et contrôles réels) : Eureka (NVIDIA), CodeasPolicies (Google), etc.

3. Des progrès incroyables dans un matériel puissant : Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree, etc.

4. Les données ont toujours été le talon d'Achille de la robotique. La communauté des chercheurs planifie conjointement le prochain ImageNet (un projet clé pour les percées dans l'apprentissage profond de l'intelligence artificielle), comme l'ouverture de l'ensemble de données OpenX-Embodiment (RT-X). Même si l’ensemble de données n’est pas encore suffisamment diversifié, il s’agit d’un pas en avant important.

5. La simulation et les données synthétiques joueront un rôle clé dans la résolution des problèmes de dextérité des robots et même de vision par ordinateur en général.

(1) NVIDIA Isaac peut simuler la réalité 1 000 fois plus rapidement qu'en temps réel, et le flux de données entrant augmente à mesure que l'échelle de calcul augmente ;

(2) Des effets réalistes peuvent être obtenus grâce au lancer de rayons accéléré par le matériel. Les rendus photoréalistes sont également accompagnés d'annotations gratuites de vérité terrain telles que la segmentation, la profondeur, la pose 3D et bien plus encore ;

(3) Le simulateur peut même étendre les données du monde réel pour créer des ensembles de données plus volumineux, réduisant ainsi considérablement les travaux de démonstration manuels coûteux. MimicGen (NVIDIA) en est un exemple typique.