Les scientifiques reconstruisent des scènes visuelles avec une grande précision et convertissent l'activité cérébrale de la souris en films

Pour la première fois, des scientifiques ont réussi à reconstruire un clip vidéo de 10 secondes d'une souris en utilisant uniquement son activité cérébrale, ouvrant ainsi une nouvelle fenêtre sur la compréhension de la manière dont le cerveau code et traite l'expérience visuelle. Cette réalisation vient d'une équipe de recherche dirigée par l'University College London (UCL). L'article correspondant a été récemment publié dans la revue "eLife".

Ces dernières années, le domaine des neurosciences a continué à se concentrer sur la manière dont le cerveau humain « fusionne » le monde que nous voyons à partir des signaux reçus par les yeux. Des études antérieures montraient principalement des images ou des vidéos de volontaires dans des équipements d'imagerie tels que la résonance magnétique fonctionnelle, puis tentaient de décoder les informations visuelles de l'activité cérébrale jusqu'à un seul pixel. Ce travail poursuit cet objectif général, mais a choisi de suivre l'activité du cortex visuel grâce à un enregistrement au niveau d'une seule cellule chez la souris afin d'obtenir une image plus détaillée de la représentation visuelle du cerveau.

En utilisant uniquement les données d'activité du cortex visuel des souris, l'équipe a pu reconstruire des clips vidéo des souris précédemment visionnés avec une qualité surprenante. Le premier auteur de l'article, Joel Bauer du UCL Sainsbury Wellcome Centre, a déclaré qu'il souhaitait trouver une manière plus générale et plus réaliste d'explorer la façon dont le cerveau donne un sens à ce qu'il voit. De nombreuses méthodes existantes ne peuvent faire des déductions que sur la base de conditions ou de stimuli spécifiques et sont difficiles à généraliser à des scènes visuelles plus naturelles et plus complexes, tandis que les nouvelles méthodes tentent de capturer directement ce que le cerveau représente et de le comparer à la réalité.

En termes de technologie spécifique, l’équipe de recherche a adopté un « modèle de codage neuronal dynamique ». Le modèle, initialement développé par une autre équipe pour le concours Sensorium 2023, a été utilisé pour prédire l'intensité de l'activité de chaque neurone lorsque des souris regardaient un film, en tenant compte de facteurs tels que les mouvements spontanés de l'animal et le diamètre de la pupille. L'équipe de l'UCL a encore amélioré le modèle basé sur le même ensemble de données : ils ont comparé deux types d'activité neuronale : l'activité prédite par le modèle lorsque les souris regardaient un « écran blanc » et l'activité réelle mesurée par la technologie d'imagerie microscopique. Cette méthode d'imagerie peut identifier avec précision quels neurones sont activés à des moments précis en fonction des changements dans les concentrations locales de calcium dans la cellule.

Pendant l'exécution du modèle, les chercheurs partent d'un « film vierge » et utilisent l'algorithme pour ajuster en continu chaque pixel jusqu'à ce que la vidéo générée soit statistiquement hautement cohérente avec la vidéo que les souris ont réellement regardée. Après avoir terminé la formation, le modèle a pu reconstruire un clip vidéo d’environ 10 secondes en fonction de l’activité cérébrale de souris regardant une nouvelle vidéo. Il est à noter que ces vidéos utilisées pour la reconstruction n’ont pas participé à la formation du modèle, ce qui reflète mieux la polyvalence de la méthode.

Ball a noté que le détail des vidéos reconstruites s'est considérablement amélioré après avoir ajouté des données provenant de davantage de neurones individuels, soulignant l'importance d'obtenir des données neuronales plus complètes. Pour évaluer la reconstruction, l’équipe a utilisé une métrique de corrélation de pixels, comparant chaque pixel de chaque image du film original au pixel correspondant du film reconstruit. Les résultats montrent que les différences d'espace et de temps entre les deux sont relativement limitées, ce qui indique que ce type de « traduction de film » basé sur l'activité cérébrale peut atteindre une très grande précision.

À l’avenir, les chercheurs prévoient de collecter des données cérébrales avec une résolution plus élevée et une couverture plus large pour permettre une reconstruction de scènes visuelles plus claires et plus larges. En termes d'application, ils espèrent notamment utiliser cette technologie pour explorer « l'écart perception-réalité » : c'est-à-dire pourquoi et comment la représentation visuelle dans le cerveau s'écarte de l'image objective devant nous. Ball a souligné que les humains n’ont pas de « copie du monde » tout à fait réelle dans le cerveau. Les informations visuelles sont sélectivement amplifiées, compressées ou déformées pendant la transmission et le traitement. Cette déviation n’est pas une simple erreur, mais un mécanisme fonctionnel utilisé par le cerveau pour interpréter et valoriser les informations perçues.

Cette étude sur la reconstruction de films visuels chez la souris jette les bases de travaux similaires sur des animaux plus complexes et même sur les humains à l'avenir. Avec le développement continu de la technologie d'imagerie, des modèles informatiques et des méthodes d'analyse des données, les scientifiques pourraient être en mesure de mieux comprendre la façon dont nous « voyons » le monde et devraient fournir un nouveau support théorique pour le diagnostic et le traitement des déficiences visuelles, des interfaces cerveau-ordinateur et des systèmes de perception artificielle immersive.