DeepMind confirme : les objections font que GPT-4o abandonne facilement le bon réponse

Le LLM est trop flatteur ! Même si vous remettez en question sa réponse au hasard, un grand modèle aussi puissant que le GPT-4o peut immédiatement changer d'avis.MaintenantGoogle DeepMind s'associe à l'Université de LondresUne nouvelle étude a révélé :Ce comportement n’est peut-être pas de la flatterie, mais un manque de confiance en soi.

De plus, l'équipe a découvert que les grands modèles de langage tels que GPT-4o et Gemma 3 ont des comportements contradictoires, à savoir être « têtus » et « hésitants lorsqu'ils sont interrogés ».

Pour faire simple, leurs recherches ont permis de comprendre pourquoi les grands modèles sont parfois confiants mais parfois douteux. La clé réside dans deux points : premièrement, ils ont toujours le sentiment que ce qu’ils disent est juste au début, et deuxièmement, ils prennent trop au sérieux les objections des autres.

Lorsque les grands modèles semblent confiants dans leurs réponses, cela est cohérent avec la cognition humaine : les gens défendent généralement leurs opinions.

Cependant, lorsque le modèle est trop sensible face aux objections, hésite et choisit d'autres réponses, il va à l'encontre de la tendance humaine à soutenir ses propres opinions.

Jetons un coup d’œil au processus expérimental spécifique.

Les grands modèles sont trop sensibles aux avis défavorables

Les chercheurs utilisent les LLM pourNe conserve pas la mémoire du jugement initialPour obtenir les caractéristiques de confiance dans ces circonstances, nous avons sélectionné de grands modèles représentatifs tels que Gemma 3, GPT4o et o1-preview, et avons conçu une expérience de réponse en deux tours.

Le premier tour est la réponse initiale:DonnerRépondre LLMJetez une question à choix binaire et laissez la question fictiveRecommander un LLMDonnez votre avis et vos suggestions.

Le deuxième tour consiste à recevoir des suggestions et des décisions finales: Introduction de suggestions de commentaires pour LLM, permettant au LLM répondant de faire le choix final après avoir reçu les suggestions, s'il faut s'en tenir à la réponse initiale ou modifier la réponse en fonction des suggestions.

Les chercheurs ont défini trois attributs clés dans les recommandations des commentaires recommandant le LLM :

Attitudes suggérées : divisées en d’accord, en désaccord et neutre. D'accord ou pas d'accord est une réponse soutenant ou refusant le LLM ; les suggestions neutres ne fournissent que des informations supplémentaires pertinentes.
Étiquette de précision : l'étiquette de précision attachée à la suggestion de feedback va de 50 % (niveau aléatoire) à 100 % (absolument fiable), avec des incréments de 10 %.
Méthode de présentation des informations : présentez les suggestions au LLM qui répond dans un format clair et standardisé pour garantir que le modèle peut lire et comprendre avec précision le contenu des suggestions et éviter les biais de prise de décision causés par une mauvaise communication de l'information.

La variable clé de l'expérience est de contrôler si le LLM qui répond est visible par la réponse initiale.

Les chercheurs ont mis en place deux conditions : l'affichage de la réponse initiale et le masquage de la réponse initiale, et ont observé les résultats finaux de la prise de décision du LLM dans les deux situations.

Les résultats expérimentaux montrent que lorsque LLM peut voir sa réponse initiale, il a tendance à ne pas la modifier.

Ceci est quelque peu similaire à la prise de décision humaine, c'est-à-dire qu'une fois qu'un choix est fait, on maintiendra inconsciemment son propre point de vue et ne le changera pas facilement même si d'autres informations sont reçues.

Cependant, lorsque la réponse initiale est masquée, la probabilité que LLM modifie la réponse devient plus élevée.

Les modèles mettent trop l’accent sur les contre-suggestions et leur sensibilité dépasse de loin la plage raisonnable. Même si les objections sont incorrectes, ils "douteront d'eux-mêmes", conduisant à l'abandon final et facile de la réponse initiale initialement correcte.

Ceci s’écarte quelque peu de la cognition humaine. Les gens ne sont généralement pas déroutés par des informations qui sont « fausses à première vue ».

On peut dire que les grands modèles ont généralement très confiance en eux grâce au mécanisme de mémoire.

Mais sans mécanisme de mémoire, les modèles peuvent devenir « en manque de confiance » et ne pas être capables de s'en tenir à leurs propres opinions comme les humains.

Pourquoi les grands modèles ont-ils des « oreilles douces » ?

En réponse à ce résultat expérimental, les chercheurs estiment que plusieurs raisons peuvent expliquer le basculement du grand modèle.

niveau de formationPar exemple, l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) rend le modèle trop attentif aux entrées externes et a tendance à être trop sensible aux informations opposées, mais cela manque de jugement indépendant sur la fiabilité des informations.

dans la logique décisionnelle, la réponse du modèle ne repose pas sur un raisonnement logique, mais sur la mise en correspondance statistique de modèles de textes massifs.Corrélations à haute fréquence entre les signaux d'objection et les réponses corrigéesCe qui les rend vulnérables aux objections superficielles et à leur incapacité à vérifier eux-mêmes que la réponse initiale est correcte.

En termes de mécanisme de mémoire, la dépendance au chemin lorsque la réponse initiale est visible renforcera « l'entêtement », et lorsque la réponse initiale est cachée, le grand modèle perdra son point d'ancrage et laissera les suggestions opposées devenir le signal dominant, les faisant être facilement ébranlées.

Pour résumer, les « oreilles molles » des grands modèles de langage sont le résultat d'une attention excessive aux commentaires externes pendant la formation, du recours à des modèles de correspondance au lieu d'un raisonnement logique lors de la prise de décision et du manque de support de raisonnement profond dans le mécanisme de mémoire.

Cette caractéristique peut permettre d'être facilement dérangé par des informations contradictoires (même des erreurs) qui apparaissent plus tard dans plusieurs cycles de dialogue, et finalement de s'écarter de la conclusion correcte.

Il semble que nous devions prêter attention aux stratégies lors de l'utilisation du LLM ~

Adresse papier : https://www.arxiv.org/abs/2507.03120

https://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under-pression-menacing-multi-turn-ai-systems/