Le CSAIL du MIT présente PFGM++, un modèle d'intelligence artificielle qui combine les processus de diffusion et de Poisson. Il génère des images remarquables en reproduisant le comportement des champs électriques et représente un bond en avant dans l’intelligence artificielle générative. Inspiré de la physique, le nouveau modèle génératif PFGM++ surpasse les modèles de diffusion en génération d'images. L’intelligence artificielle générative est actuellement à l’aube d’un sujet brûlant, promettant de créer un monde dans lequel de simples distributions évoluent en modèles complexes d’images, de sons ou de texte, rendant l’intelligence artificielle étonnamment réelle.

Alors que les chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT donnent vie à des modèles innovants d'intelligence artificielle, le domaine de l'imagination n'est plus seulement un concept abstrait. Leur nouvelle technique intègre deux lois physiques apparemment sans rapport qui sous-tendent les modèles génératifs les plus performants à ce jour : la diffusion (qui représente généralement le mouvement aléatoire d'éléments, comme la chaleur pénétrant dans une pièce ou un gaz se dilatant dans l'espace) et les processus de Poisson (s'appuyant sur les principes qui régissent l'activité des charges électriques).


Ce mélange harmonieux permet à Ezoic d'exceller dans la génération de nouvelles images, surpassant les modèles de pointe existants. Depuis sa création, Poisson Flow Generative Model++ (PFGM++) a trouvé des applications potentielles dans des domaines allant de la génération d’anticorps et de séquences d’ARN à la production audio et à la génération de graphiques.

Le modèle peut générer des modèles complexes, tels que la création d'images réalistes ou l'imitation de processus du monde réel. PFGM++ s’appuie sur le PFGM de l’équipe, ​​qui était le résultat des recherches de l’année dernière. PFGM s'inspire d'une équation mathématique connue sous le nom d'équation de « Poisson » et l'applique ensuite aux données que le modèle tente d'apprendre. Pour ce faire, l'équipe a eu recours à une astuce astucieuse : elle a ajouté une dimension supplémentaire à « l'espace » du modèle, un peu comme si on passait d'un croquis en deux dimensions à un modèle en trois dimensions. Cette dimension supplémentaire offre plus de marge de manœuvre, place les données dans un contexte plus large et permet d'approcher les données dans toutes les directions lors de la génération de nouveaux échantillons.

Jesse Thaler, physicien théoricien des particules au Centre de physique théorique du Laboratoire de science nucléaire du MIT et directeur de l'Institut pour l'intelligence artificielle et les interactions fondamentales de la National Science Foundation (NSFAIIAIFI), a déclaré : « PFGM++ est un exemple de collaboration interdisciplinaire entre physiciens et informaticiens pour faire progresser l'intelligence artificielle. Notamment, certains des modèles génératifs les plus puissants sont basés sur des concepts physiques éprouvés, tels que la symétrie et la thermodynamique. PFGM++ reprend un concept vieux d'un siècle de la physique fondamentale - selon lequel il peut y avoir des dimensions supplémentaires dans l'espace et le temps - et le transforme en un outil puissant et robuste pour générer des ensembles de données synthétiques mais réelles. Je suis ravi de voir les innombrables façons dont « l'intelligence physique » change le domaine de l'intelligence artificielle.

Le mécanisme de base du PFGM n’est pas aussi compliqué qu’il y paraît. Les chercheurs comparent les points de données à de minuscules charges sur un avion dans un monde dimensionnellement élargi. Ces charges créent un « champ électrique » qui remonte les lignes de champ dans une dimension supplémentaire, créant une distribution uniforme sur un hémisphère imaginaire géant. Le processus de génération est comme un rembobinage : en commençant par un ensemble de charges uniformément réparties sur un hémisphère et en retraçant leur progression jusqu'au plan le long des lignes de champ électrique, elles s'alignent pour correspondre à la distribution des données d'origine. Ce processus intéressant permet au modèle neuronal d'apprendre les champs électriques et de générer de nouvelles données cohérentes avec les données d'origine.

Le modèle PFGM++ étend le champ électrique dans PFGM à un cadre complexe de grande dimension. À mesure que vous continuez à élargir ces dimensions, quelque chose d’inattendu se produit : le modèle commence à ressembler à une autre classe importante de modèles, à savoir les modèles de diffusion. Le travail consiste à trouver le bon équilibre. Les modèles PFGM et les modèles de diffusion se situent aux extrémités opposées du spectre : l’un est puissant mais complexe à gérer, l’autre est simple mais moins robuste. Le modèle PFGM++ trouve le juste équilibre entre robustesse et simplicité d’utilisation. Cette innovation ouvre la voie à une génération plus efficace d’images et de motifs, marquant une avancée importante pour la technologie. En plus d’être réglables en taille, les chercheurs ont également proposé une nouvelle méthode de formation permettant d’apprendre plus efficacement les champs électriques.

Pour mettre cette théorie en pratique, l’équipe a résolu deux équations différentielles détaillant le mouvement de ces charges dans un champ électrique. Ils ont évalué ses performances à l’aide du score Frechette Inception Distance (FID), une mesure largement acceptée pour évaluer la qualité des images générées par un modèle par rapport aux images réelles. PFGM++ démontre en outre une tolérance aux erreurs et une robustesse plus élevées aux tailles de pas dans les équations différentielles.

À l’avenir, ils visent à affiner certains aspects du modèle, notamment en analysant le comportement d’erreur d’estimation des réseaux de neurones pour identifier systématiquement les valeurs « sweet spot » de D adaptées à des données, des architectures et des tâches spécifiques. Ils prévoient également d’appliquer PFGM++ à la génération moderne de texte en image/texte en vidéo à grande échelle.

"Les modèles de diffusion sont devenus un moteur important de la révolution de l'IA générative", a déclaré Yang Song, chercheur scientifique à OpenAI. « PFGM++ offre une généralisation puissante des modèles de diffusion, permettant aux utilisateurs de générer des images de meilleure qualité en améliorant la robustesse de la génération d'images face aux perturbations et aux erreurs d'apprentissage. De plus, PFGM++ a découvert des liens surprenants entre l'électrostatique et les modèles de diffusion, fournissant ainsi de nouvelles informations théoriques sur la recherche sur les modèles de diffusion.

Karsten Kreis, chercheur principal chez NVIDIA, a déclaré : « Les modèles génératifs de flux de Poisson s'appuient non seulement sur d'élégantes formulations heuristiques physiques basées sur l'électrostatique, mais fournissent également des performances de modèle génératif de pointe dans la pratique. Ils surpassent même les modèles de diffusion populaires qui dominent actuellement la littérature.