Existe-t-il un robot de Stanford avec des « yeux vivants » ? Des dizaines de tâches ménagères tout compris ne coûtent qu'environ 30 000 $ US

Après avoir montré ses compétences culinaires, le robot développé par l'équipe chinoise de Stanford a publié une nouvelle vidéo « Une journée dans la vie de Mobile ALOHA » tôt ce matin, heure de Pékin, montrant des dizaines de tâches ménagères telles que arroser les fleurs, nettoyer la pièce, préparer le café, raser le propriétaire, faire la vaisselle, jouer avec les chats, jeter les ordures, laver les vêtements, changer les housses de couette et ranger les vêtements. On peut la qualifier de « femme de ménage polyvalente ».

Les internautes ont commenté : « Le plus rare, c'est qu'il y ait de la vie dans les yeux. »

Les gens sont depuis longtemps troublés par le « paradoxe de Moravec », un phénomène contre-intuitif selon lequel « les tâches que les humains trouvent faciles sont extrêmement difficiles pour l'intelligence artificielle, et vice versa ».

Autrement dit, un robot capable de faire le ménage est très rare.

Mais ne soyez pas trop heureux. Bien que MobileALOHA ait des « yeux vivants », ses mouvements sont toujours contrôlés par des humains (voir l'image ci-dessous) et il ne s'agit pas d'une opération autonome entièrement intelligente.

L'un des chefs d'équipe a déclaré que le contrôle humain est temporaire et qu'ils étudient déjà comment combler le fossé entre le contrôle humain et la maîtrise de soi des robots. Tony Z. Zhao, un autre leader de l'équipe, a déclaré avec optimisme : « 2024 sera l'année du robot, et ceci (le robot de ménage) n'est que le début ! »

L'intérêt majeur de MobileALOHA réside dans le fait que ses capacités de contrôle de mouvement sont plus puissantes que des systèmes similaires qui coûtent 5 à 10 fois plus cher, démontrant ainsi la faisabilité des robots universels. Un robot domestique bon marché et facile à utiliser pourrait bientôt arriver.

ALOHA, Alow-cost Open-source Hardware System for Bimanual Teleoperation, est un système matériel de commande à distance bimanuelle open source à faible coût, c'est-à-dire un bras robotique open source. Son algorithme ActionChunkingwithTransformers (ACT) utilise le modèle de réseau neuronal Transformers, il dispose donc de capacités d'apprentissage par imitation. En seulement 15 minutes de démonstration, le bras robotique peut apprendre une action, en effectuant un apprentissage par imitation de bout en bout directement à partir de démonstrations réelles et collecté via une interface de commande à distance personnalisée.

Selon l'équipe chinoise mentionnée ci-dessus, MobileALOHA peut réaliser diverses tâches complexes avec seulement 50 démonstrations. Le coût n'est que de 32 000 dollars (environ 220 000 yuans) et les logiciels et le matériel sont tous open source.

L'équipe a présenté en détail la configuration matérielle de MobileALOHA dans le document : les plus chers sont le bras robotique et la base mobile, dont la base mobile est relativement bon marché parmi les produits similaires ; le capteur est équipé de 2 caméras de poignet et d'une caméra supérieure ; équipé d'un réseau de bord et de calculs, soit une batterie de 1,26 kWh pesant 14 kg. Tous les calculs lors de la collecte de données et de l'inférence ont été effectués sur un ordinateur portable grand public doté d'un GPU Nvidia 3070ti (8 Go de VRAM) et d'un Intel i7-12800H.

Pièces de grande valeur dans la nomenclature

Jim Fan, un « chercheur sur les célébrités Internet » chez Nvidia et premier stagiaire chez OpenAI, avait prédit avec optimisme que 2024 serait la première année où la communauté de l'intelligence artificielle s'élèverait pleinement pour contrer le paradoxe de Moravec. "Nous ne gagnerons pas immédiatement, mais nous serons sur le chemin de la victoire."

Ce n'est pas seulement un moment d'excitation. Divers développements dans l’industrie émergent dans un flux incessant. Jim a énuméré le développement de modèles et de plates-formes de base pour les futurs robots en 2023 :

1. Grands modèles multimodaux utilisant des bras robotiques comme dispositifs physiques d'entrée/sortie : VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU), etc. ;

2. Algorithmes qui comblent le fossé entre le Système 1 (responsable du contrôle de bas niveau) et le Système 2 (responsable du raisonnement de haut niveau) (permettant au système d'utiliser un raisonnement de haut niveau pour prendre des décisions et comprendre, et transformer ces décisions en opérations et contrôles réels) : Eureka (NVIDIA), CodeasPolicies (Google), etc. ;

3. Des progrès incroyables dans un matériel puissant : Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree, etc. ;

4. Les données ont toujours été le talon d'Achille de la robotique. La communauté des chercheurs planifie conjointement le prochain ImageNet (un projet clé pour les percées dans l'apprentissage profond de l'intelligence artificielle), comme l'ouverture de l'ensemble de données OpenX-Embodiment (RT-X). Bien que l’ensemble de données ne soit pas encore suffisamment diversifié, il s’agit d’une étape importante ;

5. La simulation et les données synthétiques joueront un rôle clé dans la résolution des problèmes de dextérité des robots et même de vision par ordinateur dans leur ensemble ;

Les fondations sont posées étape par étape. Au début de l’année 2024, nous avons des raisons d’attendre avec impatience les débuts stupéfiants de robots plus puissants.