Microsoft open source nouvelle intelligence artificielle génératrice de protéines EvoDiff

Les protéines sont des molécules naturelles qui remplissent des fonctions cellulaires essentielles dans le corps et sont des éléments constitutifs de toutes les maladies. La caractérisation des protéines peut révéler les mécanismes de la maladie, notamment les moyens de ralentir ou d'inverser la maladie, tandis que la création de protéines peut conduire au développement de médicaments et de thérapies entièrement nouveaux.

accéder:

Page d'accueil officielle du centre commercial Microsoft Chine

Cependant, le processus actuel de conception de protéines en laboratoire est coûteux du point de vue informatique et des ressources humaines. Cela nécessite de trouver une structure protéique qui effectue une tâche spécifique dans le corps, puis de trouver une séquence protéique (la séquence d'acides aminés qui composent une protéine) qui pourrait « se replier » dans cette structure. (Les protéines doivent se plier correctement pour prendre une forme tridimensionnelle afin de remplir leur fonction prévue).

Cela ne doit pas nécessairement être aussi compliqué.

Cette semaine, Microsoft a lancé EvoDiff, un cadre général qui, selon la société, peut générer des protéines « haute fidélité » et « diverses » basées sur des séquences protéiques. Contrairement à d’autres cadres de génération de protéines, EvoDiff ne nécessite aucune information structurelle sur la protéine cible, éliminant ainsi ce qui constitue généralement l’étape la plus laborieuse.

Kevin Yang, chercheur principal chez Microsoft, a déclaré qu'une fois qu'EvoDiff sera open source, il pourra être utilisé pour créer des enzymes pour de nouveaux traitements et méthodes d'administration de médicaments, ainsi que de nouvelles enzymes pour des réactions chimiques industrielles.

"Notre vision est qu'EvoDiff étendra les capacités de l'ingénierie des protéines au-delà du paradigme structure-fonction vers une conception programmable axée sur la séquence", a déclaré Yang, l'un des co-créateurs d'EvoDiff, à TechCrunch dans une interview par courrier électronique. "Avec EvoDiff, nous avons démontré que nous n'avons peut-être pas réellement besoin de structure, mais plutôt de "la séquence protéique est tout ce dont vous avez besoin", pour concevoir de nouvelles protéines de manière contrôlable."

Au cœur du framework EvoDiff se trouve un modèle de 640 paramètres formé sur les données de toutes les différentes espèces et classes fonctionnelles de protéines. (Les paramètres sont ce que le modèle d'IA apprend des données d'entraînement et définissent essentiellement la capacité du modèle à gérer le problème - dans ce cas, à générer des protéines.) Les données pour entraîner le modèle proviennent de l'ensemble de données OpenFold d'alignements de séquences et d'UniRef50, un sous-ensemble de l'ensemble de données UniProt, une base de données de séquences protéiques et d'informations fonctionnelles maintenue par le consortium UniProt.

EvoDiff est un modèle de diffusion dont la structure est similaire à de nombreux modèles modernes de génération d'images tels que la diffusion stable et DALL-E2. EvoDiff apprend à soustraire progressivement le bruit d'une protéine de départ qui est presque entièrement constituée de bruit, lui permettant ainsi d'approcher lentement, étape par étape, la séquence protéique.

Le processus par lequel EvoDiff génère des protéines.

Les modèles de diffusion sont de plus en plus utilisés dans des domaines allant au-delà de la génération d'images, depuis la conception de nouvelles protéines (telles que EvoDiff) jusqu'à la composition de musique et même la synthèse de parole.

"S'il y a une chose à retenir [d'EvoDiff], je pense que c'est que nous pouvons - et devons - générer des protéines à partir d'une séquence parce que nous permettons la polyvalence, l'échelle et la modularité", a déclaré par e-mail Ava Amini, autre co-contributrice d'EvoDiff et chercheuse principale chez Microsoft. "Notre cadre de diffusion nous donne la possibilité de le faire et nous permet également de contrôler la manière dont ces protéines sont conçues pour atteindre des objectifs fonctionnels spécifiques."

Selon Amini, EvoDiff crée non seulement de nouvelles protéines, mais comble également les « lacunes » dans les conceptions de protéines existantes. Par exemple, si une certaine partie d'une protéine se lie à une autre protéine, le modèle peut générer une séquence d'acides aminés de la protéine autour de cette partie qui répond à une série de critères.

Parce qu'EvoDiff conçoit des protéines dans un « espace de séquence » plutôt que dans une structure protéique, il peut également synthétiser des « protéines désordonnées » qui ne parviennent finalement pas à se replier dans leur structure tridimensionnelle finale. Comme les protéines fonctionnant normalement, les protéines désordonnées jouent des rôles importants dans la biologie et la maladie, comme l’augmentation ou la réduction de l’activité d’autres protéines.

Il est important de souligner que la recherche derrière EvoDiff n’a pas été évaluée par des pairs – du moins pas encore. Sarah AlAMDari, data scientist chez Microsoft impliquée dans le projet, a admis qu'« il y a encore beaucoup de travail de mise à l'échelle à faire » avant que le framework puisse être utilisé commercialement.

"Il ne s'agit que d'un modèle de 640 millions de paramètres, et si nous l'étendions à des milliards de paramètres, nous pourrions constater une amélioration de la qualité de la génération", a déclaré Alamdari par courrier électronique. "Bien que nous ayons démontré certaines stratégies grossières, pour obtenir un contrôle plus fin, nous aimerions qu'EvoDiff soit conditionné par du texte, des informations chimiques ou d'autres moyens pour spécifier les caractéristiques souhaitées."

Ensuite, l’équipe EvoDiff prévoit de tester le modèle sur des protéines générées en laboratoire pour voir si elles fonctionnent. Si cela fonctionne, ils commenceront à travailler sur le framework de nouvelle génération.