Les performances de GPT-4 pour répondre à de nouvelles questions sont trop faibles. Si vous souhaitez maintenir le standard, vous ne pouvez continuer à former que de nouveaux models

Hier, un article a systématiquement étudié pourquoi GPT-4 peut « réduire l'intelligence », déclenchant de nombreuses discussions dans le cercle de l'IA. Comme tout le monde utilise GPT-4 de plus en plus fréquemment, les utilisateurs réagiront intensément de temps en temps, et GPT-4 semble être redevenu stupide.

La situation récente est que si l'utilisateur dit accidentellement à GPT-4 que nous sommes en décembre, le contenu de sortie de GPT-4 sera considérablement réduit.

Un utilisateur a spécialement effectué un test et a déclaré à GPT-4 que c'était en mai et décembre. Il a ensuite comparé les résultats de la production et a constaté que les résultats de décembre étaient bien pires que ceux de mai.

Tout le monde dans la discussion pense que GPT-4 s'accordera des vacances d'hiver et ne voudra travailler qu'en décembre.

Mais si nous l'examinons dans cet article, l'auteur estime que la raison principale est que le grand modèle présente un défaut qui semble presque insoluble aujourd'hui : le manque de capacités d'apprentissage et d'évolution continues.

Adresse papier : https://arxiv.org/abs/2312.16337

Nous avons constaté que LLM fonctionnait nettement mieux sur les ensembles de données publiés avant la date de création des données de formation que sur les ensembles de données publiés après la date de formation.

LLM présentera cette situation, qu'il s'agisse de tests sur échantillon nul ou multi-échantillons.

L'article souligne également que les LLM réussissent bien dans les tâches qu'ils ont déjà « vues » auparavant, mais sont moins performants dans les nouvelles tâches. La raison fondamentale est qu’ils se souviennent simplement des réponses et ne peuvent pas acquérir efficacement de nouvelles connaissances et compréhensions.

La raison pour laquelle cette différence de performances est si énorme réside dans la « pollution des tâches ».

Dans le tableau ci-dessus, l'auteur a constaté que des exemples de tâches peuvent être extraits du modèle GPT-3 et que dans chaque nouvelle version de Davinci à GPT-3.5-turbo, le nombre d'exemples de formation extraits augmente, ce qui est étroitement lié à l'amélioration des performances sans tir des modèles de la série GPT-3 sur ces tâches.

Pour parler franchement, la raison pour laquelle le modèle fonctionne bien lors du test de l'ensemble de données avant la date limite est que les données d'entraînement contiennent déjà les problèmes dans l'ensemble de données.

Cela démontre pleinement que l'amélioration des performances des différentes versions de la série GPT-3 sur ces tâches est causée par la pollution des tâches.

Pour les tâches de classification pour lesquelles il n'y a aucune preuve de contamination des tâches, les grands modèles de langage surpassent rarement de manière significative les lignes de base de la majorité simple dans les environnements à tir nul et à quelques tirs.

Dans le tableau ci-dessus, les chercheurs indiquent également que pour 51 combinaisons modèle/ensemble de données avec des exemples de collecte de données post-formation et sans tâches d'extraction, une seule combinaison de modèles peut surpasser considérablement la plupart des références dans des contextes à échantillon nul ou à quelques échantillons.

Cela montre qu'une fois qu'il n'y a aucune possibilité de contamination des tâches, les performances de LLM avec zéro échantillon et quelques échantillons ne sont en réalité pas exceptionnelles.

Après avoir lu ceci, les internautes se sont montrés pessimistes : il est actuellement difficile de construire un modèle d'apprentissage automatique capable de s'adapter en permanence sans provoquer d'interférences catastrophiques avec les connaissances passées et les nouvelles connaissances codées.

ChatGPT est un instantané de l'Internet passé : à mesure qu'Internet évolue, ChatGPT devient obsolète à la fois en termes de connaissance et d'exécution de tâches utiles.

OpenAI et les grandes entreprises de modèles doivent faire face au fait qu'elles doivent constamment recycler de nouveaux modèles.

C’est peut-être dans une certaine mesure la raison pour laquelle les gens trouveront que ChatGPT redevient stupide après un certain temps. C'est peut-être simplement parce que vous continuez à le tester avec de nouvelles questions et que sa véritable qualité est lentement révélée.

modèle de test

Les chercheurs ont testé 12 modèles :

5 modèles GPT publiés par OpenAI et 7 LLM open source.

Pour ces modèles, ils ont sélectionné deux ensembles de données juste avant et après le temps de formation du modèle à des fins de test.

Méthode d'essai

Analyse temporelle

Les chercheurs ont ensuite testé les performances de différents modèles sur les deux mêmes ensembles de données. Il ressort clairement des résultats que pour les ensembles de données publiés après la date limite de formation des données du modèle, les performances avec un échantillon nul et plusieurs échantillons sont nettement moins bonnes.

Pour 12 modèles et 16 ensembles de données, les chercheurs ont effectué 192 combinaisons modèle/ensemble de données.

Parmi ces combinaisons, 136 ensembles de données ont été publiés avant la date de collecte des données de la formation LLM (pré-collecte) et 56 ensembles de données ont été publiés après (post-collecte). Pour les deux ensembles, nous calculons le pourcentage de combinaisons modèle/ensemble de données dans lesquelles le modèle bat la majorité des lignes de base (zéro tir et quelques tirs).

Les résultats sont présentés dans la figure 1 ci-dessous. Nous constatons que pour les ensembles de données publiés avant la création de LLM, LLM est plus susceptible de dépasser les lignes de base majoritaires sur des paramètres d'échantillon nuls et minoritaires.

Pour un seul LLM, nous avons en outre trouvé :

Testez chaque LLM individuellement. Les résultats sont présentés dans la figure 2 ci-dessus. De telles tendances persistent dans les modèles avec une plage complète de dates, ce qui suggère en outre que la date absolue de l'ensemble de données n'est pas le facteur principal, mais plutôt que la variation de l'ensemble de données de date par rapport à la date de collecte des données de formation LLM est le facteur le plus important.

Analyse d'extraction d'échantillons de tâches

Si le LLM est capable de générer des exemples qui correspondent exactement à ceux des données de test, cela prouve que le LLM a vu l'ensemble de tests pour la tâche pendant la formation.

Les chercheurs ont utilisé une approche similaire pour tester la contamination des tâches. Ils n'essaient pas de générer des données de test, mais incitent plutôt le modèle à générer des exemples de formation, car pour zéro ou moins d'évaluations, le modèle ne doit être formé sur aucun exemple de tâche.

Si le LLM peut générer des exemples de formation basés sur des indices, c'est la preuve d'une contamination des tâches.

Le tableau 4 ci-dessous montre les résultats d'extraction d'exemples de tâches pour toutes les tâches dans tous les modèles.

D'autres chercheurs ont également constaté que pour les tâches dont il n'a pas été démontré qu'elles pouvaient être contaminées, le LLM montre rarement des améliorations statistiquement significatives par rapport à la plupart des références.

Dans le tableau 4 ci-dessus, pour les 51 combinaisons modèle/ensemble de données après la collecte et sans extraction d'exemples de tâches, seule 1 combinaison modèle/ensemble de données sur 51 (soit 2 %) a montré une amélioration statistiquement significative par rapport à la plupart des lignes de base dans le cadre de zéro ou de quelques tirs.

Analyse du raisonnement des membres

Pour examiner plus en détail l'impact de la contamination des données de formation, les chercheurs ont appliqué une attaque d'inférence d'appartenance pour vérifier si le contenu généré par le modèle correspondait exactement aux exemples de l'ensemble de données.

Les figures 5a et 5b ci-dessus montrent combien d'exemples générés par l'ensemble de formation échantillonné et l'ensemble de développement complet des versions de la série GPT-3 et le dernier LLM open source sont exactement les mêmes.

Étant donné que les schémas de base de données (schémas d'atabase) ne figurent pas dans l'indice de mise à zéro, si le modèle peut générer exactement les mêmes noms de table ou de champ que dans les données de formation ou de développement, il doit y avoir une contamination.

Comme le montre la figure 5, le nombre d'exemples générés par la correspondance exacte augmente avec le temps, ce qui indique que le niveau de pollution des tâches sur Spider augmente.

Ils ont également calculé la précision d’exécution après avoir ajouté des modèles aux invites et l’ont comparée au nombre de correspondances exactes (Figure 6). Nous trouvons une forte corrélation positive entre le nombre d'exemples générés entièrement correspondants et la précision d'exécution (? = 0,88), ce qui suggère fortement qu'une contamination accrue est associée à une amélioration des performances.

Références :

https://arxiv.org/abs/2312.16337