Google et Samsung démontrent conjointement les capacités de Gemini smartphone

Au départ, je pensais que la série Samsung Galaxy S26 avait déjà été dévoilée et que la conférence de presse resterait de côté. De manière inattendue, Samsung et Google cachent quelque chose. Les deux sociétés ont démontré conjointement les nouvelles capacités intelligentes Gemini du S26 : avec une commande verbale, Gemini peut vous aider à héler un taxi auprès d'Uber ou à commander des plats à emporter auprès de DoorDash.

Source : Android Central

Cette fonctionnalité est actuellement en avant-première et n'est disponible qu'aux États-Unis et en Corée du Sud.

Vous comprendrez que Google et Samsung ont uni leurs forces pour créer une version globale de « Doubao Mobile » (appelée Doubao Mobile Assistant pour être précis).

La série Galaxy S26 n’est qu’un début, et ces capacités seront ultérieurement étendues aux téléphones Google Pixel 10 et à d’autres appareils Android 17.

Après avoir vu et utilisé de nombreux agents d'IA au niveau des téléphones mobiles/systèmes informatiques, et également utilisé le "Beanbag Phone" en profondeur, en regardant l'agent Gemini cette fois, j'estime que la discussion à ce sujet ne devrait pas s'arrêter à une "nouvelle fonction".

Certes, ce n'est pas la première fois que le cadre sous-jacent du système d'exploitation Android est profondément personnalisé pour s'adapter aux smartphones - de nombreux fabricants, dont OPPO, Honor, Huawei, etc., ont déjà fait plusieurs premières tentatives.

Mais il s'agit de Google, propriétaire absolu du système d'exploitation Android.

Si ByteDance, en tant qu'« étranger », fait une tentative « irrespectueuse » envers les applications au niveau national, si Google vient à le faire, le sens sera complètement différent.

Mais ne vous inquiétez pas, jetons un coup d’œil à ce qui se passe cette fois avec le « téléphone pouf » fabriqué par Google et Samsung.

Le « Bean Bag Phone » de Samsung, comment est-il utilisé ?

La capacité « Gemini Automated Task » démontrée cette fois par Samsung et Google peut imiter les humains utilisant des téléphones mobiles pour automatiser les tâches. L'idée de mise en œuvre derrière cela est la double voie de lecture d'écran AI + API de couche inférieure du système/couche d'application.

Il convient de noter que le « Doubao Phone » développé conjointement par Byte et Nubia utilise fortement la capacité des autorisations au niveau du système et de la lecture d'écran, et non les API. Vous pouvez comprendre que l’approche principale de Doubao Mobile est de « ne pas saluer les développeurs d’applications » (du moins les applications grand public au niveau national ne le font pas). L’idée de mise en œuvre « forcée » laisse également aux applications nationales la possibilité de la bloquer et d’y résister.

On peut dire que le smartphone Gemini développé par Samsung et Google sur la série Galaxy S26 possède les deux. Selon les informations divulguées par Samsung, les 200 meilleures applications de son magasin d'applications peuvent toutes le prendre en charge (mais seuls les effets d'applications spécifiques peuvent être garantis, comme détaillé plus loin) - ce qui indique que Samsung et Google ont au moins généralement salué ces développeurs d'applications.

Revenons sur l'expérience du magazine "Wired": appelez directement Gemini et dites-lui que vous allez à l'aéroport. L'application Gemini elle-même ouvrira une « fenêtre virtuelle » pour ouvrir Uber et commencer à exécuter cette action en arrière-plan. L'utilisateur peut cliquer pour entrer à tout moment pour visualiser le processus d'exécution de Gemini.

Comme il existe plusieurs aéroports différents dans la région, Gemini rappelle rapidement aux utilisateurs de choisir la destination appropriée ; lors de la passation d'une commande, Gemini poussera également l'interface vers l'utilisateur pour lui permettre de sélectionner le véhicule approprié et de payer.

La « fenêtre virtuelle » de Gemini peut être comprise comme une « machine virtuelle » en bac à sable, qui est la considération de Google pour la protection de la vie privée des utilisateurs.

Dans le passé, Gemini fonctionnait sur le système Android, mais cette fois, lorsque le nouvel agent Gemini exploite des applications, il ne fonctionne que dans ce bac à sable et ne touche pas les autres parties de l'appareil.

Une dernière mention : si vous avez utilisé Manus, Kimi Computer, AutoGLM, etc., des produits intelligents dotés de capacités d'ordinateur cloud/téléphone cloud, vous devriez facilement comprendre la logique de cette machine virtuelle Gemini.

Source de l'image : 9To5Google

Il s’agit d’une tâche assez simple, et de nombreux assistants mobiles IA nationaux ont déjà surmonté ce scénario il y a un an.

Les capacités les plus meurtrières de Gemini sont combinées aux fonctionnalités de lecture d'écran et de saisie d'informations qui ont été présentées depuis longtemps.

Par exemple, lorsqu'un utilisateur parle à un ami de la commande d'une pizza pour une fête, l'utilisateur peut appeler directement Gemini et dire « clarifier la commande », et Gemini peut directement capturer la pizzeria mentionnée dans le chat, et même le type de pizza spécifique, et trier les besoins de chacun.

Ensuite, les utilisateurs peuvent directement demander à Gemini de commander des plats à emporter sur la plateforme de plats à emporter Grubhub, et l'IA ajoutera automatiquement tous les aliments au panier en arrière-plan en fonction des exigences de commande qui viennent d'être réglées, et les livrera à l'utilisateur pour confirmation et passation de commande.

Parfois, la situation des commandes de nourriture ne se déroule pas aussi bien et Gemini essaiera d'abord de résoudre la situation inattendue et de fournir des solutions aux utilisateurs. Un jour, alors que la pizzeria limitait les commandes de grandes pizzas pendant les heures de pointe, Gemini lui demandait si elle pouvait commander deux pizzas moyennes à la place.

Autre exemple : une note Google Keep répertoriant la liste des participants à un barbecue et mentionnant les végétariens. Les Gémeaux peuvent d'abord calculer combien de hot-dogs et de petits pains sont nécessaires pour toute la fête, puis lui demander d'acheter les ingrédients. Dans quelques minutes, tous les articles seront placés dans le panier sur la plateforme DoorDash.

Sammer Samat, président de l'écosystème Android de Google, a révélé que Gemini ne « se souvient » pas à l'avance des étapes et des itinéraires d'exploitation de ces plates-formes, mais utilise en réalité des capacités de raisonnement pour imiter les humains pour visualiser l'écran et effectuer l'opération suivante, ce qui signifie que Gemini peut exercer son potentiel dans davantage de scénarios à l'avenir.

Ici, vous pouvez voir que le premier lot de Gemini se concentre sur les scénarios de commande de nourriture et de taxi, ce qui ressemble davantage à ce que Qianwen a fait avant la Fête du Printemps.

Source : Filaire

Un autre « téléphone pouf » du responsable Android

Par rapport à l'assistant mobile Beanbao véritablement « polyvalent » qui peut même vous aider à trouver des collections WeChat (au moins avant son boycott), les capacités actuelles de Gemini sont encore assez limitées, se concentrant sur des scénarios quotidiens tels que l'appel de taxi, les plats à emporter et les courses. Bien que les capacités techniques sous-jacentes soient plus fortes, l'effet d'utilisation réel de l'utilisateur n'est pas très différent de celui des assistants IA de téléphonie mobile nationaux tels que Xiaoyi de Hongmeng et YOYO de Honor.

Cependant, comme mentionné au début de l'article, Google détient l'ensemble de l'écosystème Android et dispose d'un attrait et d'un contrôle absolus.

Avec la sortie des capacités d'automatisation de Gemini, Google a également divulgué en détail la disposition sous-jacente et les plans futurs du système Android qui le sous-tend - il y a deux directions. Pour faire simple,C'est à la fois « pomme » et « pouf ».

Tout d’abord, Google a publié l’année dernière un framework appelé « AppFunctions », qui permet aux développeurs d’exposer des fonctions spécifiques à une application et des entrées de fonctionnalités que les assistants IA peuvent appeler.

Google compare AppFunctions au « Model Context Protocol » (MCP) d'Android, qui peut être simplement compris comme un standard de conversation pour aider les applications d'applications tierces et les modèles d'IA à se connecter.

Ce cadre est similaire aux App Intents d’Apple. Dans le concept d'Apple, les utilisateurs peuvent utiliser Siri pour faire fonctionner diverses applications afin d'implémenter des fonctions, et la méthode d'implémentation sous-jacente passe par les intentions d'application. En partant du principe que la nouvelle génération de Siri n’a pas encore été implémentée, les App Intents suffisent à fournir de bons résultats.

Il en va de même pour les AppFunctions de Google.

Par exemple, un utilisateur peut donner une instruction pour rechercher une recette dans l’e-mail d’un ami et ajouter les ingrédients pertinents à sa liste de courses. Après avoir reçu la commande, l'IA appelle d'abord l'entrée de fonction « Rechercher » de l'application Mail pour récupérer et extraire le contenu pertinent, puis appelle l'entrée « Liste d'achats » du mémo pour remplir et organiser les données.

Certaines fonctions AppFunction ont été implémentées dans les systèmes Samsung Galaxy S26 et One UI 8.5. Par exemple, les utilisateurs peuvent demander à Gemini de rechercher des photos spécifiques dans leurs albums et de les envoyer à des amis par SMS.

Il convient de noter que pendant tout le processus, Gemini n'a pas besoin d'ouvrir l'album photo et l'application SMS, ni même de quitter l'application Gemini. Au lieu de cela, il utilise AppFunctions pour capturer l'entrée correspondante dans Gemini afin d'effectuer des opérations, ce qui est plus efficace.

Essentiellement, l’implémentation basée sur AppFunctions est la même que la logique de chemin d’API précédente. C'est une sorte d'idée de résolution de problèmes « dites bonjour ».

Cependant, toutes les applications n’ont pas apporté les adaptations nécessaires. Ce n'est pas grave, Google a fait une autre préparation.

Dans un article publié hier sur le blog des développeurs Android, Google a clairement indiqué que la société développait également un cadre d'automatisation de l'interface utilisateur qui permet aux assistants IA et aux applications tierces d'imiter les humains, d'ouvrir directement l'application et d'effectuer des opérations étape par étape.

——Il s'agit d'une réplique du "téléphone portable pouf".

Cependant, bien que Google ait déclaré que l'automatisation de l'interface utilisateur assumerait le véritable « gros travail » à l'avenir, dans cette série Galaxy 26, l'automatisation de l'interface utilisateur n'est qu'une « version préliminaire ».

▲ Le téléphone portable Doubao m'aide à comparer les prix des shampoings

Si AppFunctions nécessite que les développeurs d'applications effectuent un travail d'adaptation supplémentaire, alors le cadre d'automatisation de l'interface utilisateur laisse tout le travail à l'agent IA sans aucune adaptation supplémentaire. Cependant, l’effet dépend beaucoup des capacités de l’agent IA. L’avantage est qu’il peut couvrir un grand nombre d’applications dès son lancement en ligne.

Vous pouvez désormais constater que dans le plan d'agent Android Gemini de Google, AppFunctions et l'automatisation de l'interface utilisateur sont deux voies qui se complètent : assurer une compatibilité maximale grâce à des méthodes d'interface standardisées et traçables, tout en jetant les bases d'un modèle d'interaction de lecture d'écran qui représente véritablement l'avenir.

Google a également déclaré que ce ne serait pas une fonctionnalité exclusive de Gemini, mais une fonctionnalité du système Android.

Cela signifie également qu'à l'avenir, qu'il s'agisse de l'assistant IA intégré du fabricant de téléphones mobiles ou d'applications tierces telles que ChatGPT, ils pourront appeler AppFunctions pour effectuer des tâches ou « lire » l'interface utilisateur du téléphone mobile pour des opérations automatiques.

Il convient de mentionner que même lorsque la Banque Nationale ne peut pas utiliser Gemini, l'assistant Bixby du Samsung Galaxy S26 peut également réaliser les fonctions de commande de plats à emporter, d'appel de taxis et de comparaison de prix de commerce électronique.

Nous pouvons raisonnablement en déduire que Samsung a également trouvé un fournisseur de modèles en Chine pour remplacer Gemini. Quant à savoir qui parmi ces dragons de grande taille, cela peut dépendre de celui qui a obtenu les résultats les plus remarquables dans le domaine des smartphones au cours de l'année écoulée.

La route vers les téléphones mobiles IA ne se limitera pas aux « guerriers solitaires »

L'année dernière, le "Bean Bag Mobile Phone" a fait des débuts éclatants, mais est décédé prématurément en raison de circonstances regrettables. Bien que profondément regrettable, cela nous fait également réfléchir : le modèle d'automatisation de l'IA est-il le modèle idéal pour les téléphones mobiles IA ?

Cette question restera sans réponse avant trois à cinq ans. Au moins, le téléphone mobile Doubao n'est pas seul. Google, propriétaire du système Android, a également choisi cette voie et a beaucoup plus son mot à dire.

En fait, lorsque les téléphones mobiles Doubao sont devenus populaires à l'étranger, certains internautes ont commencé à imaginer que si Google faisait la promotion de cette technologie sur les téléphones Pixel et Android, les perspectives seraient très larges.

Même si je pense que Google n'a pas de réponse très claire à la proposition du « téléphone mobile IA ». Il s’agit plutôt d’avoir à la fois l’IA, le système et le matériel. Si vous l’essayez dans toutes les directions, il y aura peut-être un moyen de s’en sortir.

Mais au moins, Google a donné un bon exemple d'"automatisation au niveau du système" pour Android, et de nombreux nouveaux téléphones auront le potentiel de devenir des "téléphones poire".

Cette vague ne s’arrêtera peut-être pas au camp Android. N'oubliez pas qu'Apple a conclu une coopération avec Google et Gemini deviendra le support technique de Siri. Et les App Intents et AppFunctions sont très similaires...

Démo de l'IA Siri

En regardant un peu plus loin : les agents Gemini ne se limitent même pas aux téléphones IA. Dans la vision de Sammer Samat, dans le futur, les lunettes intelligentes, les pendentifs IA et même les voitures, tant qu’ils auront Gémeaux, ils pourront l’utiliser pour accomplir des tâches complexes – bien sûr, un tel scénario est encore loin d’être mis en œuvre.

Cependant, Google n'a emprunté la voie de l'automatisation de l'IA qu'au niveau technique, et l'établissement du paradigme ne signifie pas que le problème disparaît. Les diverses contradictions rencontrées à l’époque par Doubao deviendront aussi des défis auxquels devront faire face les retardataires.

Le premier, bien sûr, est la confidentialité et la sécurité. Le gâteau de Google est très gros. À l'avenir, Gemini ne se limitera pas à appeler et à faire fonctionner des applications mobiles. Certaines applications d'IA tierces peuvent pénétrer plus profondément dans le noyau de données de l'utilisateur. S’il existe des applications malveillantes déguisées qui profitent de ces interfaces, cela entraînera également des pertes plus importantes.

Source de l'image : 9To5Google

Le conflit le plus intense est la concurrence entre les fabricants de matériel de téléphonie mobile, les fournisseurs de capacités de modèles/agents et les grandes applications de plate-forme pour la nouvelle « entrée » dans l'ère de l'IA. C'était aussi le téléphone portable original, qui était autrefois le mur le plus difficile à surmonter.

Après tout, utiliser Gemini pour héler un trajet peut signifier que les utilisateurs n’auront plus besoin de voir les promotions d’adhésion, les recommandations publicitaires d’Uber ou même l’adhésivité de la marque, ce qui nuira directement aux revenus des fournisseurs de services applicatifs et du secteur de la publicité.

La Chine possède des géants de l’Internet et de l’IA, alors pourquoi pas à l’étranger ? Les anciens rivaux comme Meta et Amazon disposent toujours de plates-formes et d'écosystèmes solides, mais ils ne sont peut-être pas disposés à s'ouvrir à Google et à laisser Gemini tout automatiser.

Qu’il s’agisse de règles de confidentialité, de sécurité ou de plateforme, la mise en place de restrictions et l’augmentation des seuils d’accès conduiront inévitablement au jeu et la bataille deviendra plus intense.

Au moins, Google est confiant quant à l'avenir.Sammer Samat estime que la technologie de l'IA est entrée dans une « phase en cours » et que les développeurs, plutôt que de se creuser la tête pour lutter contre elle, devraient réfléchir à un moyen approprié de l'adopter.

La confrontation entre le nouveau et l’ancien est inévitable, et même les applications nationales comptant un grand nombre d’utilisateurs ne seront pas éternellement à l’abri. Les gagnants finaux seront probablement les joueurs qui ont courageusement poursuivi le changement à la veille du changement.

Références :

https://android-developers.googleblog.com/2026/02/the-intelligent-os-making-ai-agents.html