Focus sur la recherche accélérée sur les protéines inconnues : une base de données génétique humaine dont on ne sait presque rien

Des chercheurs britanniques ont développé une nouvelle base de données accessible au public qu’ils espèrent voir diminuer au fil du temps. En effet, la base de données rassemble des milliers de protéines peu étudiées codées par des gènes du génome humain, dont l'existence est connue mais dont les fonctions sont pour la plupart inconnues.

La base de données, appelée « unknome », est le résultat des recherches menées par Matthew Freeman de la Dunn School of Pathology de l'Université d'Oxford, au Royaume-Uni, et Sean Munro du laboratoire MRC de biologie moléculaire à Cambridge, au Royaume-Uni, et leurs collègues. Ils ont étudié certaines des protéines de la base de données et ont découvert que la plupart contribuent à des fonctions cellulaires importantes, notamment le développement et la résistance au stress.

Le séquençage du génome humain a clairement montré que le génome humain code pour des milliers de séquences protéiques possibles dont l'identité et les fonctions restent inconnues à ce jour. Les raisons en sont multifactorielles, notamment la tendance à concentrer les rares financements de la recherche sur des cibles connues et le manque d’outils, notamment d’anticorps, pour étudier la fonction de ces protéines dans les cellules.

Mais les auteurs estiment qu'il est risqué d'ignorer ces protéines, car il est probable que certaines protéines, peut-être plusieurs, jouent des rôles importants dans des processus cellulaires clés et pourraient à la fois fournir des informations et servir de cibles pour une intervention thérapeutique.

Pour faciliter une exploration plus rapide de cette classe de protéines, les auteurs ont créé la base de données Unknome, qui attribue à chaque protéine un score de « notoriété » qui reflète les informations contenues dans la littérature scientifique concernant la fonction, la conservation entre espèces, la compartimentation subcellulaire et d'autres éléments.

Selon ce système, il existe des milliers de protéines ayant un « degré connu » proche de zéro. Il s'agit notamment de protéines provenant d'organismes modèles, ainsi que de protéines du génome humain. La base de données est ouverte à tous et personnalisable, permettant aux utilisateurs de fournir leurs propres pondérations pour différents éléments et ainsi de générer leur propre ensemble de scores de notoriété pour prioriser leurs propres recherches.

Pour tester l’utilité de la base de données, les auteurs ont sélectionné 260 gènes chez l’homme qui possèdent des gènes similaires chez les mouches et ont un score de notoriété de 1 ou moins chez les deux espèces, ce qui indique que presque rien n’est connu à leur sujet. L’inactivation complète d’un grand nombre de ces gènes est incompatible avec la vie des mouches ; l'inactivation partielle ou spécifique d'un tissu a révélé que la plupart des gènes contribuent à des fonctions importantes affectant la fertilité, le développement, la croissance des tissus, le contrôle de la qualité des protéines ou la résistance au stress.

Les résultats montrent que malgré des décennies de recherches approfondies, des milliers de gènes de mouches restent encore à comprendre, même au niveau le plus élémentaire, et il en va clairement de même pour le génome humain. "Ces gènes non caractérisés ne doivent pas être ignorés", a déclaré Munro. "Notre base de données fournit une plate-forme puissante, polyvalente et efficace pour identifier et sélectionner des gènes importants de fonction inconnue à des fins d'analyse, accélérant ainsi la réduction du déficit de connaissances biologiques représenté par les génomes inconnus." "

Munro a ajouté : « Les rôles de milliers de protéines humaines restent flous, mais la recherche a tendance à se concentrer sur celles qui sont déjà bien comprises. Pour aider à résoudre ce problème, nous avons créé une base de données « Unknome », qui classe les protéines en fonction de leur degré de connaissance, puis examine fonctionnellement un sous-ensemble de ces protéines mystérieuses pour montrer comment l'ignorance conduit à la découverte biologique.