Google a récemment annoncé l'extension de la fonction de recherche de fichiers dans l'API Google Gemini, offrant ainsi aux développeurs des capacités de génération améliorée (RAG) de récupération multimodale plus complètes. Le cœur de cette mise à jour comprend : la prise en charge de la récupération mixte d'images et de texte, la prise en charge du filtrage de métadonnées personnalisé, la nouvelle prise en charge des références au niveau de la page, ainsi que l'amélioration de l'accessibilité et de la précision des systèmes d'IA dans des scénarios tels que les bases de connaissances d'entreprise, les questions et réponses sur les documents et les agents.
Selon le blog officiel de Google, la nouvelle version de la fonction de recherche de fichiers ne se limite plus à la recherche traditionnelle de vecteurs de texte, mais est basée sur la capacité d'intégration multimodale unifiée construite sur Gemini Embedding 2, qui peut comprendre simultanément le contenu visuel et le contenu textuel des images, des PDF et des documents. Les développeurs n'ont pas besoin de créer des bases de données vectorielles complexes, des pipelines d'intégration ou des systèmes de segmentation de documents, et peuvent effectuer le flux de travail RAG complet directement dans l'API Gemini.

Dans les systèmes RAG traditionnels, le contenu visuel tel que les images, les graphiques, les captures d'écran et les dessins de conception est souvent difficile à indexer efficacement, ce qui entraîne un manque de compréhension contextuelle dans les réponses de l'IA. La nouvelle capacité de recherche de fichiers multimodale de l'API Gemini peut identifier de manière native le contenu des images et créer un index de recherche avec le texte. Par exemple, les entreprises peuvent télécharger des fichiers PDF contenant des images de produits, des graphiques de données ou des diagrammes d'architecture technique, et l'IA peut simultanément comprendre les informations visuelles et les descriptions textuelles lorsqu'elles répondent.
Google affirme que cette fonctionnalité est particulièrement adaptée à la création d'assistants de connaissances au niveau de l'entreprise, de robots de service client, de systèmes d'analyse de documents et d'agents IA. Les développeurs peuvent faire en sorte que les modèles effectuent des inférences basées sur des documents internes sans avoir besoin d'une maintenance supplémentaire de systèmes de récupération d'images indépendants. Pour les entreprises disposant d’une grande quantité de données mixtes d’images et de textes, cela signifie une complexité de déploiement moindre et une précision de récupération plus élevée.
Une autre nouvelle fonctionnalité est le filtrage personnalisé des métadonnées. Les développeurs peuvent ajouter des métadonnées telles que des balises, des catégories, des heures et des services aux fichiers téléchargés, afin qu'ils puissent être filtrés en fonction des métadonnées lors d'une récupération ultérieure afin d'améliorer la précision et l'efficacité. Ceci est également plus adapté à la gestion de bases de connaissances à grande échelle et réduit l'entrée de contenu non pertinent dans la fenêtre contextuelle.
Une autre fonctionnalité importante est la citation au niveau de la page. Lors de la génération de réponses, Gemini AI peut clairement marquer de quelle page du document proviennent les informations, au lieu de simplement référencer vaguement l'intégralité du fichier. Cela permet aux utilisateurs de cliquer pour afficher la page spécifique du document après avoir obtenu la réponse afin de juger de l'exactitude du contenu et de lire le document complet pour obtenir plus d'informations.
À l'heure actuelle, la nouvelle version de la fonction de recherche de fichiers de l'API Google Gemini est ouverte à tous les développeurs. Les développeurs intéressés peuvent ouvrir l'API Gemini via des plateformes telles que Google AI Studio et Google Cloud pour en faire l'expérience.
Guide du développeur : https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878