Google espère rattraper OpenAI en publiant Gemini

En ce qui concerne la technologie derrière l'engouement actuel pour l'IA, Google d'Alphabet est en fait l'inventeur, mais la popularité de ses produits a considérablement traîné. Google espère changer cela avec la sortie très attendue de Gemini, le « modèle d'intelligence des travailleurs le plus vaste et le plus puissant » que l'entreprise ait construit à ce jour.

Depuis l'énorme succès d'OpenAI l'année dernière avec son chatbot conversationnel ChatGPT, un nombre croissant d'entreprises expérimentent l'IA générative, une technologie qui peut automatiser des tâches telles que le codage, la synthèse de rapports ou la création de campagnes marketing basées sur les demandes des utilisateurs. Lors d'une présentation avant le lancement du produit le 6 décembre, Google a souligné que Gemini est le modèle le plus flexible jamais construit, car il est disponible en versions de différentes tailles, dont une qui peut être exécutée directement sur un smartphone. Cela le distingue des autres concurrents.

Ce modèle d'intelligence artificielle est un système utilisé pour prendre en charge diverses applications d'intelligence artificielle générative. Il existe en trois versions différentes : GeminiUltra, GeminiPro et GeminiNano. Eli Collins, vice-président des produits chez DeepMind de Google, a déclaré que cette diversité signifie que Gemini "peut tout exécuter, des appareils mobiles aux grands centres de données".

"Nous souhaitions depuis longtemps créer une nouvelle génération de modèles d'intelligence artificielle inspirés par la façon dont les gens comprennent et interagissent avec le monde, un modèle qui ressemble plus à un collaborateur utile qu'à un logiciel intelligent", a déclaré Collins lors d'un entretien téléphonique. "Les Gémeaux nous rapprochent de cette vision."

Avant la sortie du modèle, la société a testé Gemini sur une série de références standards de l'industrie et a déclaré que Gemini Pro avait surpassé le GPT-3.5 d'OpenAI dans six tests sur huit. Google a déclaré que Gemini avait surpassé GPT-4, la dernière version du modèle à usage général d'OpenAI, dans sept tests sur huit en matière de compréhension générale du langage, de raisonnement, de mathématiques et de codage. Pendant ce temps, Google estime que son dernier produit d'IA générative, AlphaCode2, qui interprète et génère du code de programme, surpasse 85 % de ses concurrents en matière de programmation compétitive. La société publiera un rapport technique expliquant plus en profondeur l’architecture du modèle, le processus de formation et l’évaluation de Gemini.

À partir du 6 décembre, les développeurs Android souhaitant écrire des applications basées sur Gemini pour smartphones et tablettes pourront s'inscrire pour utiliser une version « nano » de ce modèle d'IA pouvant s'exécuter directement sur de tels appareils. Google a également annoncé qu'il activerait immédiatement Gemini sur son téléphone phare Pixel 8 Pro, qui prendra en charge de nouvelles fonctionnalités d'IA générative, telles que la synthèse des points clés des enregistrements téléphoniques. La semaine prochaine, Google mettra GeminiPro à la disposition des clients cloud via ses plateformes VertexAI et AIStudio.

Gemini Ultra, la plus grande version du modèle d'intelligence artificielle de Google, sera initialement disponible dans un programme d'accès anticipé destiné aux développeurs et aux entreprises, les détails du programme devant être annoncés la semaine prochaine. Cette version sera largement diffusée auprès du public au début de l'année prochaine.

Gemini s'intègre également à un grand nombre d'applications et de services de Google via Bard, le chatbot conversationnel de l'entreprise et concurrent de ChatGPT. Auparavant, Bard utilisait le modèle PaLM2 de Google, un modèle de langage à grande échelle annoncé par la société lors de sa conférence annuelle des développeurs en mai.

Google a été sous pression au cours de l'année écoulée, à la fois pour réinventer son activité principale de recherche et pour faire face à la montée en puissance des programmes d'intelligence artificielle générative. Bien que l’entreprise ait longtemps été considérée comme un pionnier dans la recherche sur l’intelligence artificielle, certains ont critiqué sa direction pour sa lenteur à commercialiser des produits d’IA, notamment après le succès de produits tels que ChatGPT et le générateur d’images Dall-E. Depuis qu'OpenAI a publié GPT-4 en mars, Google s'efforce de réaffirmer son leadership dans le domaine, notamment en injectant la nouvelle technologie dans son activité de recherche mature.

Gemini est la réponse de l'entreprise à cette pression du marché. Google affirme que le modèle d'IA est « naturellement multimodal », ce qui signifie qu'il est pré-entraîné dès le départ pour gérer les invites basées sur du texte et des images données par les utilisateurs. Par exemple, dans une démonstration vidéo, Google a montré que les parents peuvent aider leurs enfants à faire leurs devoirs en téléchargeant une image d'un certain problème de mathématiques et des photos des étapes à suivre pour résoudre le problème sur du papier brouillon.

Dans la vidéo de démonstration, Applebaum, ingénieur logiciel chez Google, a déclaré : « Gemini peut non seulement résoudre ces questions, mais il peut également lire les réponses et comprendre lesquelles sont bonnes et lesquelles sont fausses, et expliquer les concepts qui nécessitent des éclaircissements supplémentaires. » La société a également indiqué que son « expérience générative de recherche » – une version expérimentale du moteur de recherche construit par Google à l'aide de sa technologie d'intelligence artificielle générative – sera intégrée aux nouvelles fonctionnalités de Gemini l'année prochaine.

Néanmoins, les représentants de l'entreprise ont averti que Gemini est toujours sujet aux « hallucinations » ou aux informations fausses ou fabriquées produites par l'IA générative. Collins appelle ce phénomène « une question de recherche non résolue ». La vidéo de démonstration que la société a montrée aux journalistes était préenregistrée.

Collins a déclaré que Gemini "possède l'évaluation de sécurité la plus complète de tous les modèles d'IA de Google". Pour évaluer la sécurité de Gemini, Google a mené des tests contradictoires sur le modèle d'IA, qui imite un mauvais acteur essayant d'exploiter le programme et donne des invites, a-t-il déclaré. Le test comprenait « Real Toxicity Prompts », un test développé par l'Allen Institute for Artificial Intelligence qui contient plus de 100 000 invites extraites du Web pour aider les chercheurs en IA à examiner de grands modèles de langage pour détecter les discours de haine et les préjugés politiques.

Google a également souligné que l'outil serait rapide. Gemini utilise une nouvelle architecture de supercalculateur sous-jacente et des puces de traitement plus récentes, ce qui lui permet de fonctionner plus rapidement que les modèles précédents plus petits, a indiqué la société. Google utilise une nouvelle version de sa puce cloud, Cloud Tensor Processing Units (TPU en abrégé), une puce conçue en interne qui peut entraîner les modèles existants 2,8 fois plus rapidement que son prédécesseur. Amin Wahdat, vice-président de l'apprentissage automatique chez Google, a déclaré que cette approche donne à Google "un nouveau regard sur la future infrastructure standard d'IA". Il a ajouté que la société utiliserait toujours des puces d'IA tierces pour exécuter son modèle Gemini.

Gemini sera intégré à Bard, le chatbot génératif d'IA de Google lancé en mars, lui donnant accès aux services les plus populaires de l'entreprise, notamment Gmail, Maps, Docs et YouTube. Le déploiement se déroulera en deux phases distinctes : à partir du 6 décembre, Bard sera alimenté par GeminiPro, qui permettra un raisonnement, une planification, une compréhension et d'autres capacités de haut niveau. Il pourra être exécuté en anglais dans 170 pays et régions, mais notamment pas en Europe ou au Royaume-Uni, où la société a déclaré consulter les régulateurs locaux.

Au début de l'année prochaine, la société prévoit de lancer BardAdvanced, qui sera alimenté par un modèle Gemini Ultra plus puissant. Google annonce qu'il lancera bientôt un programme bêta de confiance pour améliorer BardAdvanced avant son déploiement plus large auprès du public. Sissie Hsiao, vice-présidente des produits Bard chez Google, a déclaré : « Avec la bénédiction de Gemini, Bard subit sa plus grande et meilleure mise à jour à ce jour, qui ouvrira de nouvelles façons aux gens de créer, d'interagir et de collaborer. »