Google présente une nouvelle façon de former des robots à l'aide de modèles vidéo et de grands langages

2024 sera une grande année à l’intersection de l’IA générative/des modèles à grande base et de la robotique. De l’apprentissage à la conception de produits, le potentiel d’applications est passionnant. Les chercheurs en robotique DeepMind de Google font partie des nombreuses équipes qui explorent le potentiel de ce domaine. Dans un article de blog publié aujourd'hui, l'équipe met en avant les recherches en cours visant à permettre aux robots de mieux comprendre ce que nous, les humains, voulons qu'ils fassent.

Traditionnellement, la vie d’un robot est axée sur l’exécution répétée d’une seule tâche. Les robots à usage unique ont tendance à être très bons dans ce domaine, mais même dans ce cas, ils peuvent avoir des difficultés lorsque des modifications ou des erreurs par inadvertance surviennent.

Le nouveau AutoRT est conçu pour utiliser de grands modèles de base à diverses fins. Dans un exemple standard donné par l'équipe DeepMind, le système utilise d'abord un modèle de langage visuel (VLM) pour améliorer la connaissance de la situation. AutoRT gère une flotte de robots travaillant ensemble et équipés de caméras pour capturer l'agencement de l'environnement et les objets qui s'y trouvent.

Dans le même temps, les grands modèles de langage peuvent également proposer des tâches que le matériel, y compris les exécuteurs de terminaux, peut effectuer. Beaucoup pensent que les modèles linguistiques sont la clé pour débloquer la robotique, leur permettant de comprendre efficacement davantage d’instructions en langage naturel et de réduire le besoin de compétences codées en dur.

Le système a subi des tests approfondis au cours des sept derniers mois. AutoRT est capable de coordonner jusqu'à 20 robots et 52 appareils différents simultanément. Au total, DeepMind a collecté environ 77 000 tests, dont plus de 6 000 tâches.

Une autre nouveauté de l’équipe est RT-Trajectory, qui utilise l’entrée vidéo pour l’apprentissage des robots. De nombreuses équipes explorent l'utilisation de vidéos YouTube comme moyen d'entraîner des robots à grande échelle, mais RT-Trajectory ajoute une couche intéressante en superposant des croquis 2D de mouvements de bras aux vidéos.

"Ces trajectoires, sous forme d'images RVB, fournissent des repères visuels pratiques de bas niveau au modèle à mesure qu'il apprend les stratégies de contrôle du robot", a noté l'équipe.

DeepMind a déclaré que lorsqu'il a été testé sur 41 tâches, le taux de réussite de cette formation était deux fois supérieur à celui de la formation RT-2, à 63 % et 29 % respectivement.

"RT-Trajectory exploite la richesse des informations sur les mouvements des robots qui sont présentes dans tous les ensembles de données sur les robots mais qui sont actuellement sous-utilisées", a noté l'équipe. "RT-Trajectory représente non seulement une nouvelle étape sur la voie de la construction de robots capables de se déplacer de manière efficace et précise dans de nouvelles situations, mais il libère également des connaissances à partir d'ensembles de données existants."