Selon les informations du 21 avril, une équipe de l'Université de Washington aux États-Unis a présenté un nouveau prototype de casque appelé VueBuds. Il intègre une caméra miniature dans un véritable casque sans fil conventionnel et la combine avec un modèle de langage visuel (VLM). Il peut décrire la scène dans le champ de vision du porteur en temps réel, identifier les objets et la traduire par interaction vocale. Il est décrit par les chercheurs comme « une version mobile et uniquement vocale de la recherche d'images inversée ».

Le prototype de VueBuds est basé sur le casque sans fil à réduction de bruit WF-1000XM3 de Sony. Une caméra noir et blanc de la taille d’un grain de riz est intégrée à la coque du casque. Le traitement local ou à faible bande passante est effectué via le modèle de langage visuel intégré. Les utilisateurs n'ont qu'à poser des questions pour obtenir des explications et des traductions des descriptions vocales, des noms d'objets ou du contenu textuel de la scène devant eux. L'équipe de recherche a publié un article au CHI 2026, une conférence importante dans le domaine de l'interaction homme-machine, détaillant la conception et les résultats expérimentaux de ce système.
L'un des chefs de projet, Shyam Gollakota, professeur à l'École d'informatique et d'ingénierie Paul G. Allen de l'Université de Washington, a déclaré que l'équipe avait pleinement tiré les leçons des Google Glass lors de la conception - ces dernières ont été ridiculisées sous le nom de "Glassholes" par le public en raison de son apparition abrupte et de son énorme controverse sur la vie privée, et ont finalement échoué. Gollakota a souligné que, comparé aux lunettes, de nombreuses personnes n'aiment pas ajouter d'appareils visibles sur leur visage, et que les écouteurs sont déjà une forme de port très populaire et socialement acceptée. Par conséquent, « cacher » les fonctions visuelles dans les écouteurs devrait permettre d’obtenir un meilleur équilibre entre convivialité et confidentialité.
Au niveau matériel, VueBuds utilise une caméra noir et blanc basse résolution et une transmission à faible bande passante pour contrôler la consommation d'énergie en dessous de 5 mW et s'éteint automatiquement lorsqu'il n'est pas utilisé pour économiser de l'énergie. Les chercheurs ont déclaré que lors d'un test impliquant 90 utilisateurs et 17 tâches visuelles de questions et réponses, la qualité de réponse des VueBuds était comparable à celle des lunettes intelligentes Ray-Ban Meta avec caméras intégrées et grands modèles, démontrant le potentiel d'intégrer des capacités de modèle de langage visuel en développement rapide dans la forme populaire d'écouteurs.
Dans la vidéo de démonstration, un homme portant des VueBuds se tenait dans la cuisine d'un appartement et a demandé "Veuillez décrire la scène devant moi". Environ une seconde plus tard, une IA au ton détendu et imitant une voix féminine humaine est sortie du casque et a répondu : "Je vois un coin cuisine avec une fenêtre qui apporte beaucoup de lumière. Il y a des bouteilles et un livre sur le plan de travail. La fenêtre a des stores et un évier à gauche." Plus tard, lorsqu'il a regardé la pochette d'un disque et lui a demandé le nom de l'album, le système a rapidement reconnu qu'il s'agissait de « Abbey » des Beatles. Couverture de l'album "Route".
Selon les données expérimentales divulguées dans l'article, lors d'un test mené auprès de 16 participants, VueBuds a atteint une précision d'environ 83 % sur les tâches de reconnaissance d'objets et de traduction, et une précision d'environ 93 % sur des tâches telles que l'identification des titres de livres et des auteurs. Par exemple, l'équipe de recherche a déclaré qu'à l'avenir, les utilisateurs devraient utiliser ce système pour lire des bandes dessinées coréennes qui n'ont pas encore été traduites, ou commander des plats cachés qui sont « uniquement disponibles dans le menu chinois » dans un restaurant chinois, sans être limités par leurs propres capacités linguistiques.
En réponse à la question courante : « si les caméras du casque sont situées des deux côtés du visage, la vue sera-t-elle bloquée par la tête de l'utilisateur ? » les chercheurs ont expliqué que VueBuds s'appuie sur le principe de la parallaxe binoculaire humaine et utilise les différents angles de vision des deux caméras pour effectuer une fusion de « vision stéréoscopique », acquérant ainsi la capacité de comprendre la scène à venir. Cependant, étant donné qu'il ne prend actuellement en charge que les images en noir et blanc, VueBuds ne peut pas répondre aux questions liées à la couleur ; la navigation et la traduction de haute précision dans des scènes complexes nécessitent toujours des caméras couleur de plus haute résolution et une puissance de calcul plus puissante.
Les limitations de puissance et de puissance de calcul signifient également que VueBuds est actuellement incapable de collecter et de traiter des flux vidéo en continu et avec une bande passante élevée, et ne convient qu'à une utilisation intermittente de « photographie + questions et réponses ». Malgré cela, l'équipe de recherche estime que son équilibre entre la consommation d'énergie, le volume et la vitesse de réponse est suffisant pour prouver la faisabilité de cette forme en tant que « plate-forme d'intelligence visuelle » et fournir une nouvelle direction pour l'expansion fonctionnelle des futurs casques.
Dans le même temps, les risques liés à la vie privée et à la sécurité sont également devenus des sujets incontournables. L'article soulignait qu'il y a quelques années, une entreprise avait proposé une application capable « d'identifier les noms d'étrangers en prenant une photo ». À cette époque, la réponse ironique populaire sur Internet était : « Dans ce cas, des femmes mourront à cause de cela. » VueBuds ne fournit à ce stade que des mesures de sécurité limitées, comme le petit « voyant de travail » sur les écouteurs, mais les observateurs ne se rendent souvent pas compte qu'une paire d'écouteurs capture des images. Combiné avec la collecte audio, la connexion Bluetooth et les services de reconnaissance faciale tiers, une fois que ce type d'appareil est utilisé à mauvais escient, il peut constituer une grave menace pour la vie privée, « la basse définition étant toujours fatale ».
L'article souligne que si les autorités de régulation peuvent formuler et mettre en œuvre des règles efficaces pour garantir que la sécurité publique et la vie privée ne sont pas violées, de tels casques de « lecture » devraient apporter un confort significatif aux malvoyants et à d'autres groupes, améliorant considérablement leur qualité de vie et leur liberté de voyage, d'étude, de divertissement, etc. L'Université de Washington a souligné dans un communiqué de presse officiel que VueBuds est encore au stade de prototype de recherche scientifique, mais il a montré la perspective d'intégrer des modèles de langage visuel dans les appareils portables quotidiens. À l’avenir, cela pourrait donner naissance à une nouvelle génération de casques intelligents « audibles et visibles ».