Des chercheurs du MIT et du laboratoire d'intelligence artificielle Watson du MIT-IBM ont dévoilé EfficientViT, un modèle de vision par ordinateur qui accélère la segmentation sémantique en temps réel des images haute résolution et est optimisé pour les appareils dotés d'un matériel limité, tels que les voitures autonomes.

Les voitures autonomes doivent identifier rapidement et précisément les objets qu’elles rencontrent, depuis un camion de livraison au ralenti garé au coin d’une rue jusqu’à un cycliste se dirigeant vers une intersection.

Les modèles d'apprentissage automatique pour la vision par ordinateur haute résolution peuvent permettre des applications de vision à forte intensité de calcul, telles que la conduite autonome ou la segmentation d'images médicales sur des appareils de pointe. La photo montre l'interprétation d'un artiste de la technologie de conduite autonome. Source de l'image : MIT Actualités

Pour ce faire, les voitures autonomes peuvent utiliser de puissants modèles de vision par ordinateur pour classer chaque pixel dans une image haute résolution d’une scène afin que les objets susceptibles d’être masqués dans des images de moindre qualité ne soient pas ignorés. Cependant, cette tâche, appelée segmentation sémantique, est complexe et nécessite de nombreux calculs à haute résolution d’image.

Des chercheurs du MIT, du laboratoire d'intelligence artificielle MIT-IBM Watson et d'autres institutions ont développé un modèle de vision par ordinateur plus efficace qui réduit considérablement la complexité informatique de cette tâche. Leur modèle peut effectuer avec précision une segmentation sémantique en temps réel sur des appareils dotés de ressources matérielles limitées, tels que les ordinateurs de bord qui permettent aux voitures autonomes de prendre des décisions en une fraction de seconde.

Optimiser le traitement en temps réel

Les modèles de segmentation sémantique de pointe récents apprennent directement les interactions entre chaque paire de pixels dans une image, de sorte que leur effort de calcul quadruple avec la résolution de l'image. Pour cette raison, ces modèles, bien que précis, sont trop lents pour traiter des images haute résolution en temps réel sur des capteurs ou des appareils de pointe tels que les téléphones mobiles.

Les chercheurs du MIT ont conçu un nouvel élément de base pour les modèles de segmentation sémantique qui offre les mêmes capacités que ces modèles de pointe, mais avec seulement une complexité informatique linéaire et fonctionne avec une efficacité matérielle.

Le résultat est une nouvelle famille de modèles de vision par ordinateur haute résolution qui, lorsqu'ils sont déployés sur des appareils mobiles, fonctionnent jusqu'à neuf fois plus rapidement que les modèles précédents. Il est important de noter que cette nouvelle famille de modèles présente une précision égale ou supérieure à celle de ces modèles alternatifs.


EfficientViT permet aux voitures autonomes d'effectuer efficacement une segmentation sémantique, une tâche de vision par ordinateur haute résolution qui consiste à classer chaque pixel d'une scène afin que la voiture puisse identifier avec précision les objets. Sur la photo, une photo de la vidéo de démonstration montrant les différentes couleurs utilisées pour la classification des objets. Image fournie par les chercheurs

Examen plus approfondi des solutions

Cette technologie aidera non seulement les voitures autonomes à prendre des décisions en temps réel, mais améliorera également l’efficacité d’autres tâches de vision par ordinateur à haute résolution, telles que la segmentation d’images médicales.

"Bien que les chercheurs utilisent les transformateurs de vision traditionnels depuis longtemps et qu'ils aient obtenu des résultats impressionnants, nous espérons que les gens se concentreront également sur les aspects d'efficacité de ces modèles. Nos travaux montrent qu'il est possible de réduire considérablement la charge de calcul, de sorte que la segmentation d'images en temps réel puisse être effectuée localement sur l'appareil." a déclaré Han Song, professeur agrégé au Département de génie électrique et d'informatique (EECS), membre du MIT-IBM Watson AI Lab et auteur principal de l'article décrivant le nouveau modèle.

Avec lui, Cai Han, étudiant diplômé du Département de génie électrique et d'informatique, premier auteur de l'article, Li Junyan, étudiant de premier cycle à l'Université du Zhejiang, Hu Muyan, étudiant de premier cycle à l'Université Tsinghua, et Gan Chuang, chercheur principal au Laboratoire d'intelligence artificielle Watson du MIT-IBM, rédigent également l'article avec lui. La recherche sera présentée à la Conférence internationale sur la vision par ordinateur.

Solution simplifiée

Classer chaque pixel d'une image haute résolution pouvant contenir des millions de pixels est une tâche difficile pour les modèles d'apprentissage automatique. Récemment, un nouveau modèle puissant appelé convertisseur visuel a été appliqué efficacement.

Les transformateurs ont été initialement développés pour le traitement du langage naturel. Dans ce cas, ils codent chaque mot de la phrase sous forme de jeton, puis génèrent une carte d'attention qui capture la relation entre chaque jeton et tous les autres jetons. Cette carte d'attention aide à comprendre le contexte lorsque le modèle fait des prédictions.

En utilisant le même concept, le transformateur visuel divise l'image en patchs de pixels et code chaque patch dans une étiquette, puis génère une carte d'attention. Lors de la génération de cette carte d'attention, le modèle apprend directement les interactions entre chaque paire de pixels à l'aide d'une fonction de similarité. Le modèle forme ainsi ce qu’on appelle un champ récepteur global, ce qui signifie qu’il a accès à toutes les parties pertinentes de l’image.

Étant donné que les images haute résolution peuvent contenir des millions de pixels et être divisées en milliers de segments, les graphiques d’attention peuvent rapidement devenir très volumineux. Par conséquent, à mesure que la résolution de l’image augmente, la quantité de calcul est multipliée par quatre.

Dans une nouvelle famille de modèles appelée EfficientViT, les chercheurs du MIT ont adopté un mécanisme plus simple pour créer des cartes d'attention : remplacer les fonctions de similarité non linéaires par des fonctions de similarité linéaires. Par conséquent, ils peuvent réorganiser l’ordre des opérations et réduire l’effort de calcul total sans modifier la fonctionnalité ni perdre le champ de réception global. Dans leur modèle, l’effort de calcul requis pour la prédiction augmente linéairement avec la résolution de l’image.

"Mais rien n'est gratuit. Une attention linéaire ne peut capturer que l'arrière-plan global de l'image et perdra des informations locales, ce qui rendra la précision moins bonne", a déclaré Han. Pour compenser la perte de précision, les chercheurs ont ajouté deux éléments supplémentaires au modèle, chacun n'ajoutant qu'une petite quantité de calcul.

L'un des composants peut aider le modèle à capturer l'interaction des caractéristiques locales et à atténuer la faiblesse des fonctions linéaires dans l'extraction d'informations locales. Le deuxième élément est un module qui met en œuvre un apprentissage multi-échelle, aidant le modèle à reconnaître les objets grands et petits.

Cai Han a déclaré : « La partie la plus critique ici est que nous devons soigneusement équilibrer performances et efficacité. » Ils ont conçu EfficientViT avec une architecture matérielle conviviale, facilitant son exécution sur différents types d'appareils, tels que les casques VR ou les ordinateurs de pointe pour les voitures autonomes. Leur modèle peut également être appliqué à d’autres tâches de vision par ordinateur telles que la classification d’images.

Simplifier la segmentation sémantique

Lorsqu'ils ont testé leur modèle sur un ensemble de données utilisé pour la segmentation sémantique, ils ont constaté que le modèle fonctionnait neuf fois plus rapidement sur les unités de traitement graphique (GPU) NVIDIA que d'autres modèles de transformateurs visuels populaires, avec une précision identique ou supérieure.

"Maintenant, nous pouvons tirer le meilleur des deux mondes, en ralentissant suffisamment les calculs pour les exécuter sur des appareils mobiles et cloud", a déclaré Han Song. En s’appuyant sur ces résultats, les chercheurs espèrent appliquer cette technique pour accélérer les modèles d’apprentissage automatique génératifs, tels que ceux utilisés pour générer de nouvelles images. Ils espèrent également continuer à étendre l’application d’EfficientViT à d’autres tâches de vision.

LuTian, ​​directeur principal des algorithmes d'intelligence artificielle chez AMD, a déclaré : « Le modèle de transformateur efficace mis au point par l'équipe du professeur Han Song est désormais devenu l'épine dorsale d'une technologie de pointe dans diverses tâches de vision par ordinateur telles que la détection et la segmentation. Leurs recherches démontrent non seulement l'efficacité et les capacités du transformateur, mais révèlent également son énorme potentiel dans des applications réelles, telles que l'amélioration de la qualité d'image dans les jeux vidéo.

« La compression de modèles et la conception de modèles légers sont des sujets de recherche clés pour parvenir à un calcul efficace de l'intelligence artificielle, en particulier dans les modèles de base à grande échelle. Le groupe de recherche du professeur Han Song a réalisé des progrès significatifs dans la compression et l'accélération des modèles d'apprentissage profond modernes, en particulier les transformateurs visuels. Jay Jackson, vice-président mondial de l'intelligence artificielle et de l'apprentissage automatique chez Oracle, qui n'a pas participé à la recherche, a ajouté. « Oracle Cloud Infrastructure a aidé son équipe à faire progresser cette recherche marquante pour permettre une intelligence artificielle efficace et verte. »