Mise à jour du classement LLM : Google Bard dépasse GPT-4. Les joueurs chinois ne figurent pas dans le top ten

Aujourd'hui, le classement de Google Bard a dépassé GPT-4 lors du concours de qualification des LLM d'Imsys et est passé directement à la deuxième place.(Mais pas plus que le dernier modèle GPT-4Turbo d'OpenAI) : face à cette bonne chose, le scientifique en chef de Google, Jeff Dean, a bien sûr été le premier à venir « se montrer » et apporter son propre modèle GeminiPro.

Présentation du classement

Ce classement LLMs (plateforme de référence ChatbotArena) a été initié par l'organisation LMSYS (Large Model Systems Organization) dirigée par des chercheurs de l'UC Berkeley. Les classements sont dérivés sur la base du système de notation Elo à travers des batailles 1V1 aléatoires et anonymes entre les LLM.

Comme le montre la figure ci-dessous, vous pouvez poser n'importe quelle question. Le côté gauche est la réponse du modèle A et le côté droit est la réponse du modèle B. Vous pouvez ensuite évaluer les réponses des deux modèles. Il y a quatre options au total : « A est meilleur ; B est meilleur ; A est aussi bon que B ; A est aussi mauvais que B. » Si vous ne parvenez pas à vous décider en un seul tour de discussion, vous pouvez continuer à discuter jusqu'à ce que vous choisissiez celui qui vous semble le meilleur, mais si l'identité du grand modèle est révélée pendant le chat, le vote ne sera pas pris en compte.

La figure ci-dessous montre la répartition proportionnelle de la probabilité de gagner (hors nuls) du modèle A en jouant contre le modèle B :

La figure ci-dessous montre le nombre de batailles pour chaque combinaison de modèles (pas d'égalité))

Le graphique ci-dessous montre le taux de victoire moyen d'un seul modèle par rapport à tous les autres modèles :

OpenAI domine la liste, mais les joueurs chinois ne figurent pas dans le top dix

L'image ci-dessous montre le classement actuel du Top 10 de la liste. On peut constater que les modèles de la série GPT ont toujours un avantage absolu (trois des quatre premiers), tandis que les modèles de la série Claude d'Anthropic occupent trois des dix premiers. Mistral, une société qui prétend être la version européenne d'OpenAI, compte également cette fois deux modèles dans le top dix.

Veuillez également regarder la colonne la plus à droite de l’image ci-dessus.Parmi les 10 premiers modèles, 9 sont des modèles privés fermés, ce qui montre que le modèle open source a encore du chemin à parcourir.

Il est dommage que le grand modèle linguistique des joueurs chinois ne soit pas entré dans le top dix.

Parmi eux, le modèle le mieux classé est le modèle Yi-34B-Chat appartenant à la startup Zero-One de Kai-Fu Lee, classé 13e.

Suivi par le modèle de chat Tongyi Qianwen Qwen-14B d'Alibaba, classé 36e :

Ensuite, il y a le modèle de la série ChatGLM de la start-up Zhipu AI du professeur Tang Jie de Tsinghua :

Trois points doivent être expliqués :

1. Il existe de nombreux modèles développés par les principaux fabricants chinois qui peuvent ne pas figurer dans cette liste ;

2. Cette liste est destinée au public mondial, donc beaucoup plus d'utilisateurs choisissent de discuter en anglais qu'en chinois, ce qui peut nuire au vaste modèle linguistique développé par les acteurs chinois ;

3. Cette liste ne compte que les questions et discussions aléatoires de 200 000 utilisateurs, ce qui représente la véritable évaluation des utilisateurs discutant avec les LLM. Cependant, en raison de l’inégalité des questions et du professionnalisme des utilisateurs, l’évaluation présente un certain degré de subjectivité.

Enfin, parlons de Google. A l'heure des licenciements et des départs de scientifiques pour créer des entreprises, des troubles internes et externes (pour plus de détails, rendez-vous sur la crise de Google ! Les scientifiques partent pour créer des entreprises, les employés sont licenciés...), Google pourra-t-il achever "l'Empire contre-attaque" en 24 ans ?

Attendons et voyons !