Google DeepMind a annoncé lundi le lancement de la troisième génération du modèle mondial à usage général Genie 3, capable de générer des environnements interactifs d'une diversité sans précédent et de donner des invites textuelles. Genie 3 peut générer des mondes dynamiques dans lesquels il est possible de naviguer en temps réel à 24 images par seconde et de rester cohérents pendant plusieurs minutes à une résolution de 720p.


Genie 3 sera initialement disponible sous forme d'aperçu de recherche limité pour un petit groupe d'universitaires et de créateurs afin de recueillir des commentaires critiques.

Génie 3 Percée

DeepMind a accumulé plus de dix ans d’expérience dans le domaine des environnements simulés. De la formation de l’IA pour jouer à des jeux de stratégie en temps réel au développement d’environnements d’apprentissage ouverts pour les robots, ces études pointent toutes vers un objectif commun : construire des modèles puissants du monde.

Genie 3 est le premier modèle mondial à permettre une interaction en temps réel, tout en offrant également une cohérence et un réalisme améliorés par rapport aux modèles de génération précédente tels que Genie 1/2 et aux modèles de génération vidéo tels que Veo 2. La compréhension approfondie de Veo 3 de la physique intuitive

caractéristiquesGénie 2VéoGénie 3
résolution360p720p à 4K720p
champEnvironnement 3DUniverselUniversel
Méthode de contrôleClavier/souris limitédescription du niveau vidéoNavigation en temps réel ; événements mondiaux rapides
Durée de l'interaction10-20 secondes8 secondesquelques minutes
Délai d'interactionpas en temps réelsans objettemps réel

compétences de base

Simulez les propriétés physiques du monde : Genie 3 possède une compréhension approfondie des lois physiques et peut simuler de manière réaliste le débit d'eau, les changements de lumière et d'ombre et les interactions environnementales complexes, telles que des hélicoptères manœuvrant soigneusement autour des falaises et des cascades.

Simulez le monde naturel : des écosystèmes dynamiques sur les rives des lacs glaciaires aux adorables créatures à fourrure sautant sur des ponts arc-en-ciel dans des mondes fantastiques, Genie 3 transforme l'imagination en réalité explorable.

Modélisation d'animation et de roman : vous pouvez utiliser votre imagination pour créer des scènes fantastiques et des personnages animés expressifs

Explorez différentes régions et scènes historiques : le modèle peut transcender les contraintes géographiques et temporelles et amener les utilisateurs à explorer différents lieux et époques historiques, qu'ils survolent des montagnes enneigées en Wingsuit ou qu'ils soient immergés dans une ville ancienne avec une longue histoire.

Repousser les limites des performances en temps réel : pour atteindre un degré élevé de contrôlabilité et d'interactivité en temps réel, lors de la génération autorégressive de chaque image, le modèle doit prendre en compte les trajectoires générées précédemment qui augmentent avec le temps. Par exemple, si un utilisateur revisite un emplacement une minute plus tard, le modèle doit faire référence aux informations pertinentes d'il y a une minute. Afin d'obtenir une interactivité en temps réel, ce calcul doit être effectué plusieurs fois par seconde en réponse à l'arrivée d'une nouvelle entrée utilisateur.

Cohérence de l’environnement à long terme : pour que les mondes générés par l’IA soient immersifs, ils doivent rester physiquement cohérents sur de longues périodes. Cependant, générer des environnements avec régression automatique est souvent un problème technique plus difficile que générer une vidéo entière, car les inexactitudes ont tendance à s'accumuler avec le temps. Les environnements Genie 3 sont largement cohérents sur plusieurs minutes et la mémoire visuelle remonte à il y a une minute. Les mondes générés par Genie 3 sont plus dynamiques et plus riches car ils sont créés image par image en fonction des descriptions et des actions du monde de l'utilisateur.

Événements mondiaux rapides : en plus de la saisie de navigation, Genie 3 prend également en charge une forme plus expressive d'interaction basée sur du texte appelée Événements mondiaux rapides. Les événements mondiaux repérables peuvent modifier le monde généré, comme des conditions météorologiques changeantes ou l'introduction de nouveaux objets et personnages, améliorant ainsi l'expérience de contrôle de navigation. Cette capacité augmente également l'étendue des scénarios contrefactuels ou de simulation que les agents peuvent utiliser pour tirer des leçons de leur expérience et faire face à des situations inattendues.

Recherche sur l’autonomisation de l’intelligence incarnée

L'un des objectifs ultimes de Genie 3 est de fournir un terrain d'entraînement infiniment riche aux agents incarnés. DeepMind l'a testé en combinaison avec l'agent polyvalent SIMA. Les chercheurs peuvent donner un objectif à SIMA (comme trouver un mélangeur industriel dans une boulangerie), et SIMA tente d'accomplir la tâche en envoyant des instructions de navigation à Genie 3. Genie 3 est comme un monde réel, fournissant des résultats en temps réel basés sur le comportement de SIMA, permettant à l'agent d'apprendre et de se développer dans un grand nombre de scénarios de simulation.

limites actuelles

Limites actuelles de Genie 3 :

Espace d’action limité : la portée d’action directe de l’agent est toujours limitée

Manque de simulation multi-agents : difficulté de simuler avec précision des interactions complexes entre plusieurs agents indépendants

Précision géographique insuffisante : impossible de reproduire parfaitement les emplacements géographiques du monde réel

Mauvais rendu du texte : le texte généré est souvent flou, sauf indication contraire dans l'invite initiale.

Durée d'interaction limitée : prend actuellement en charge les interactions continues de quelques minutes et non d'heures