Google a récemment lancé une mise à jour majeure pour son chatbot Gemini : lorsque les utilisateurs posent des questions, le système peut non seulement répondre avec du texte, mais également générer directement des modèles 3D interactifs et des scènes de simulation physique. Cela signifie que lorsque les utilisateurs souhaitent « voir un problème », Gemini peut désormais le faire via une visualisation 3D rotative et évolutive avec contrôle des paramètres.

Selon Google, après avoir activé de nouvelles fonctionnalités, Gemini fournira plusieurs méthodes d'interaction en même temps lors de la génération de modèles ou de simulations 3D. Les utilisateurs peuvent non seulement faire glisser pour faire pivoter le modèle et zoomer sur les détails, mais également ajuster manuellement les variables via des curseurs ou saisir différentes valeurs pour observer les changements en temps réel. Pour les questions impliquant des processus physiques ou des concepts abstraits, ce type de visualisation interactive devrait devenir un nouveau type de formulaire de réponse.
Dans l'expérience réelle, le journaliste a pris comme exemple de test "la génération d'une simulation de la lune en orbite autour de la terre". Gemini génère ensuite une scène visuelle en trois dimensions : les utilisateurs peuvent régler la vitesse de révolution de la lune avec des curseurs, masquer ou afficher les lignes de trajectoire représentant l'orbite avec des interrupteurs, et mettre en pause ou continuer la démonstration avec des boutons. Dans le même temps, les utilisateurs peuvent également zoomer et faire pivoter l’ensemble des modèles 3D pour observer le processus de mouvement sous différentes perspectives.
Avant cela, Gemini prenait en charge la génération d'images plates interactives basées sur les invites de l'utilisateur, mais cela était encore limité à l'interaction au niveau de l'image. Cette mise à niveau étend les capacités aux modèles 3D et aux simulations dynamiques, enrichissant ainsi les moyens de compréhension et de présentation assistés par l'IA de concepts complexes. Cette mise à jour intervient également dans un contexte de concurrence entre les grands fournisseurs de modèles pour les « réponses visuelles » : il n'y a pas si longtemps, Anthropic a introduit la possibilité de générer automatiquement des graphiques, des schémas et d'autres visualisations interactives pour Claude, tandis qu'OpenAI a également ajouté des outils de visualisation pour les concepts mathématiques et scientifiques à ChatGPT.
Actuellement, tous les utilisateurs de l'application Gemini peuvent découvrir cette nouvelle fonctionnalité en sélectionnant le modèle « Pro ». Le chemin d'opération est le suivant : basculez le modèle sur Pro dans l'application, puis effectuez des requêtes à Gemini telles que "Afficher un système à double pendule" et "Aidez-moi à visualiser l'effet Doppler". Une fois que Gemini a renvoyé la description textuelle, un bouton « Montre-moi la visualisation » apparaîtra en bas de l'interface. Cliquez dessus pour générer le modèle 3D ou la scène de simulation correspondant.