Microsoft lance AI Dev Gallery pour faciliter l'exécution native de modèles d'IA sur Windows 11

Copilot+PC est le premier ordinateur à exécuter des petits modèles de langage (SLM) sur l'appareil. L'avantage de cette approche est qu'elle produit des résultats pour des tâches telles que la génération d'images ou de texte beaucoup plus rapidement que l'application Copilot basée sur le cloud. Aujourd'hui, Microsoft a lancé AIDevGallery, un moyen simple d'intégrer des capacités d'intelligence artificielle sur l'appareil dans n'importe quelle application.

L'application AIDevGallery est destinée aux développeurs qui souhaitent essayer plusieurs modèles d'intégration de capacités d'intelligence artificielle dans leurs applications. L'application propose plus de 25 exemples que les utilisateurs peuvent télécharger et exécuter sur leurs appareils. De plus, les projets ou le code source peuvent être exportés directement dans l'application et exécutés immédiatement. Il fonctionne sous Windows 10 et 11 et prend en charge les architectures x64 et ARM64.

Actuellement, le seul moyen d’y accéder est de créer le projet dans Visual Studio, puis de l’exécuter. De plus, au moins 20 Go d'espace et un processeur multicœur sont requis. Il recommande également un GPU avec 8 Go de VRAM.

L'application dispose de deux modes : échantillon et maquette, et le programme les divise en texte, images, code, audio et vidéo et commandes intelligentes.

modèle de test

Les modèles de génération d'images et de génération vidéo sont assez volumineux, approchant les 5 Go. Nous commençons par un petit modèle lié à l’upscaling, qui fait moins de 100 Mo. Nous avons pris une capture d'écran et essayé de la mettre à l'échelle à l'aide du CPU, en basculant entre le CPU et le GPU pour gérer les demandes pendant que nous travaillions.

Dans cette machine virtuelle à faible configuration, le processus de mise à l'échelle a pris moins de 30 secondes et la consommation de mémoire a instantanément grimpé jusqu'à 1 Go. L'application affiche une version mise à l'échelle de l'image avec une résolution de 9272*4900. Les éléments graphiques, notamment le texte, sont fortement affectés et difficiles à lire.

Il n'y a pas d'option pour prévisualiser l'image générée dans une fenêtre plus grande ou en plein écran. Pas même une option de téléchargement pour l'enregistrer sur le disque

Nous avons essayé un autre modèle appelé DetectHumanPose. Il peut identifier l'emplacement de quelqu'un dans une image. Bien qu'il soit capable d'identifier avec précision une personne qui marche, il a même commencé à afficher des marqueurs de localisation pour les captures d'écran de notre bureau avec plusieurs applications ouvertes.

Nous ne savons pas comment ces modèles sont intégrés dans l'application, mais certaines de ces fonctionnalités peuvent être exécutées localement. Bien entendu, ces modèles de PC nécessitent plus d’espace de stockage et un processeur puissant avec 16 Go de mémoire ou plus.

Vaut-il la peine de télécharger un modèle de 5 Go pour convertir des invites textuelles en images, ou d'attendre 30 secondes pour implémenter cette fonctionnalité sur une application Web ? De toute évidence, la plupart de ces fonctionnalités ont des cas d’utilisation et des environnements de mise en œuvre très spécialisés, plutôt que de plaire à l’ensemble de la base d’utilisateurs de Windows 11.