L'Université des sciences et technologies de Huazhong a officiellement publié une déclaration indiquant qu'une équipe de l'école de logiciels de l'école a lancé le grand modèle multimodal « Monkey ».Ce modèle est bon pour la description d'images et les questions et réponses visuelles, et peut réaliser « l'observation » du monde, mener une communication approfondie de questions et réponses et décrire avec précision des images.
Selon l'introduction officielle, lors d'expériences sur 18 ensembles de données, le modèle Monkey de l'Université de Huake a bien fonctionné, en particulierEn termes de description d'image et de tâches visuelles de questions et réponses, il a surpassé de nombreux modèles existants bien connus tels que le LLAVA de Microsoft, le PALM-E de Google, le Mplug-owl d'Alibaba, etc.
aussi,Monkey présente des avantages significatifs dans les tâches de questions et réponses à forte teneur en texte, surpassant même le leader reconnu par l'industrie GPT-4V sur certains échantillons.
Une particularité du Singe est son excellente capacité à « parler en regardant des images ». Dans la tâche de description détaillée, Monkey a démontré sa capacité à percevoir les détails de l'image et à détecter le contenu que d'autres grands modèles multimodaux ignoraient.
Un autre point fort est la possibilité de traiter des images avec des résolutions allant jusqu'à 1 344 x 896 pixels, soit 6 fois la taille maximale que d'autres grands modèles multimodaux peuvent actuellement gérer.
Il est rapporté que la résolution maximale des images actuellement traitées par l'industrie est de 448 × 448 pixels.
Il convient de mentionner que l'équipe a rendu le code Monkey open source sur GitHub, la plus grande plateforme de services d'hébergement de code au monde.