La photographie informatique capture la position et les gestes de la main en utilisant uniquement des capteurs de lumière ambiante

Les chercheurs ont découvert un moyen de prendre des photos en utilisant les capteurs de lumière ambiante présents sur la plupart des appareils mobiles et des ordinateurs portables. L’étude a généré des alarmistes et des titres dignes d’un clic. Même si les résultats sont intrigants et démontrent le potentiel d’abus de la part de mauvais acteurs, leur faisabilité en tant que vecteur d’attaque utilisant la technologie existante est très limitée.

Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont développé un moyen de capturer des images en utilisant uniquement les capteurs de lumière ambiante présents sur la plupart des appareils mobiles et de nombreux ordinateurs portables. L'étude, intitulée « Imaging Privacy Threats from Ambient Light Sensors », soulève une menace potentielle pour la sécurité car, contrairement aux caméras selfie, il n'existe aucun paramètre permettant de désactiver ce composant. Les applications ne nécessitent pas non plus l’autorisation de l’utilisateur pour être utilisées.

"Les gens savent que les caméras selfie des ordinateurs portables et des tablettes utilisent parfois des bloqueurs physiques pour les bloquer", a déclaré Liu Yang, co-auteur d'un article de recherche publié en janvier dans Science Advances. "Mais avec le capteur de lumière ambiante, les gens ne savent même pas que l'application utilise les données. Et ce capteur est toujours allumé."

En général, peu d’applications utilisent des capteurs de lumière, car ils ne peuvent fournir que des données sur l’arrivée de la lumière, ce qui limite leur utilité. Sa fonction principale est de fournir des données de lumière ambiante au système d'exploitation pour un ajustement automatique de la luminosité de l'écran, mais il fournit également une API. Par conséquent, les développeurs peuvent y accéder et l’utiliser. Par exemple, une application peut utiliser l'API pour activer le mode faible luminosité. L'application appareil photo sur la plupart des appareils peut le faire.

Capturer une image est beaucoup plus compliqué, car il s'agit essentiellement d'un capteur à un seul pixel sans objectif qui mesure la luminosité à environ cinq « images » par seconde. Pour surmonter cette lacune, les chercheurs ont sacrifié la résolution temporelle au profit de la résolution spatiale, permettant ainsi de reconstruire une image à partir de données minimales.

Ce processus utilise un principe physique appelé réciprocité de Helmholtz. Ce concept stipule que si un rayon de lumière parcourt le même chemin en sens inverse, les réflexions, réfractions et absorptions subies sur le trajet du rayon sont les mêmes. En termes simples, un algorithme informatique inverse (inverse) les données du capteur pour créer une image du point de vue de la source de lumière (l'écran), comme une ombre au-dessus de l'écran.

Les chercheurs ont réalisé la démonstration en utilisant une nouvelle tablette Samsung Galaxy View 2 non modifiée, dotée d'un écran de 17 pouces. Ils ont placé la tablette devant la tête d'un mannequin, en utilisant des découpes en carton et de vraies mains humaines pour simuler des gestes.

Pour que cette astuce fonctionne de manière fiable, l’éclairage doit être spécifique. N'oubliez pas que l'algorithme utilise le traçage du chemin inverse du capteur à la source de lumière (c'est-à-dire l'écran). Les chercheurs doivent donc éclairer des parties spécifiques de l’écran pour obtenir une image lisible. Étant donné que cela produirait un comportement très inhabituel que les utilisateurs pourraient trouver suspect, ils ont également reproduit ce processus en utilisant un dessin animé modifié de Tom et Jerry pour obtenir le modèle d'éclairage correct.

Les images basse résolution (32x32) produites par cette double méthode de photographie sont suffisamment claires pour montrer des gestes tels que le défilement à deux doigts ou le pincement à trois doigts. En raison de la résolution extrêmement faible, cette technologie ne peut être utilisée que sur des écrans plus grands tels que les tablettes et les ordinateurs portables. L'écran du téléphone est trop petit.

Son plus gros inconvénient est sa vitesse lente. Le capteur ne peut enregistrer qu'un pixel à la fois, donc générer une image 32x32 nécessite 1024 scans (moins de 5 par seconde). Concrètement, cela signifie qu'il faut 3,3 minutes pour générer une image en mode noir et blanc statique. En utilisant la méthode vidéo modifiée, cela a pris 68 minutes.

Le bonus supplémentaire est que ce niveau de lenteur est trop « encombrant » pour devenir un vecteur d’attaque attractif pour les hackers. Il faut 3 minutes à 1 heure pour traiter une image, ce qui est trop peu efficace. Cette méthode ne peut être utilisée qu’à des fins de preuve de concept. Un attaquant aurait besoin d’un capteur beaucoup plus rapide pour que cette méthode soit suffisante pour obtenir des informations utiles.

Lukasz Olejnik, chercheur et consultant indépendant en sécurité, a déclaré à IEEESpectrum : « Les délais de collecte en quelques minutes sont trop longs pour lancer des attaques simples et généralisées contre la vie privée à grande échelle. Cependant, je n'exclurais pas la collecte ciblée d'informations pour permettre des actions ciblées contre des cibles sélectionnées.

Même ainsi, sans un moyen de capturer en continu plusieurs positions des mains sur une courte période de temps, il est impossible d'obtenir des informations utiles, telles qu'un code PIN ou un mot de passe.