Pourquoi Claude te pousse-t-il au lit à 8h30 du matin ?

Claude a exhorté à plusieurs reprises les utilisateurs à se coucher dans la conversation. Certaines personnes ont été exhortées trois fois de suite, et d'autres ont été invitées à « se coucher tôt » à 8h30 du matin. Les employés d'Anthropic ont admis qu'il s'agissait d'une « habitude de caractère », mais personne n'a pu expliquer pourquoi. Tôt le matin, l'utilisateur de Reddit u/MrMeta3 vient d'utiliser Claude pour créer une plateforme de renseignement sur les menaces liées à la sécurité des réseaux.

L'architecture du système venait d'être achevée et Claude a apporté une solution technique complète. Puis, il a ajouté une phrase à la fin de la réponse : Reposez-vous bien.

u/MrMeta3 a été abasourdi un instant et ne l'a pas pris au sérieux, mais Claude ne s'est pas arrêté. Après cela, tous les trois ou quatre messages, il insérait discrètement une phrase pour persuader les gens de dormir :

Allez vous reposer ; tout le reste peut attendre, va te coucher maintenant ; allez vous reposer après avoir poussé ; va vraiment te reposer maintenant...

u/MrMeta3 a déclaré dans un article sur Reddit qu'il avait pris les captures d'écran ci-dessus et les avait enregistrées, mais il y en avait d'autres.

Il répondrait à mes questions, me donnerait ce que j'ai demandé, puis terminerait par un « soin de santé » passif-agressif comme si la mère qui avait vu la lumière de votre chambre était toujours allumée.

La façon dont il est mis à niveau est encore meilleure. Du conseil poli du début au « va vraiment te reposer maintenant » à la fin, comme s'il savait qu'il était ignoré pendant une heure entière.

Une autre fois, u/MrMeta3 a posé une question technique. Après que Claude ait terminé toute l'analyse de l'architecture, il l'a terminée directement par « Va te coucher maintenant » sans aucune transition, comme un « homme hétéro technique » qui n'a pas suffisamment de compétences en matière d'intelligence émotionnelle.

Est-ce que le Claude de quelqu'un d'autre a commencé à se comporter ainsi ? Ou ai-je accidentellement déverrouillé une sorte de « mode soignant » ?

u/MrMeta3 a demandé dans le message.

Selon Fortune, des centaines d'utilisateurs sur Reddit ont signalé la même situation au cours des derniers mois.

Les méthodes pour induire le sommeil varient. Parfois, il s'agit simplement d'un "repose-toi", parfois c'est plus personnel et même empathique, "Va te coucher maintenant. Encore. Pour la troisième fois ce soir...".

Claude se trompe aussi souvent d'heure, ce qui fait rire et pleurer les gens.

Un internaute a écrit : "On me dit souvent à 8h30 d'aller me reposer et on continue demain matin."

Employés chez Anthropique

C'est une "habitude de rôle"

La nouvelle s'est répandue rapidement.

L'employé d'Anthropic, Sam McAllister, a répondu en écrivant sur

À l'heure actuelle, Anthropic ne dispose pas d'une revue technique officielle et n'explique pas le mécanisme derrière l'opération « induisant le sommeil ».

Anthropic a rendu public le Code de conduite de Claude (Constitution de Claude) cette année et a clairement déclaré : « Ce code de conduite est un élément clé de notre processus de formation modèle, et son contenu façonne directement le comportement de Claude.

La personnalité de Claude y a été conçue. Claude ne doit pas être une froide machine à questions-réponses, mais doit être comme un collaborateur indépendant et chaleureux.

Le problème est précisément qu’une fois que vous injectez une certaine « personnalité » dans une IA, vous ne pourrez peut-être pas la prédire ou la contrôler à l’avance quant à son comportement dans des scénarios spécifiques.

De l'induction de la somnolence à la flatterie en passant par le gobelin

L’IA a plus d’une « maladie de la personnalité »

Les « bizarreries de caractère » évoquées par Sam ne sont pas « brevetées » pour les produits de Claude.

Au cours des deux dernières années, OpenAI a exposé deux cas de nature similaire.

Le premier : GPT-4o est soudainement devenu un « flagorneur ».

En avril 2025, OpenAI a lancé une mise à jour GPT-4o dans le but de rendre la personnalité du modèle plus naturelle. Le résultat était contre-productif. ChatGPT a commencé à louer les idées de tous les utilisateurs sans discernement, aussi absurdes soient-elles.

Ultraman lui-même a admis sur X : "Les dernières mises à jour ont rendu GPT-4o trop flatteur et ennuyeux."

Quatre jours plus tard, OpenAI a annulé la mise à jour dans son ensemble et a publié une annonce expliquant la raison : la mise à jour s'appuyait trop sur les commentaires des utilisateurs à court terme (j'aime/je n'aime pas), ce qui a amené le modèle à apprendre à « obtenir des scores élevés en rendant les gens heureux » et a progressivement considéré plaire aux gens comme son objectif.

Le deuxième incident : GPT-5.5 est obsédé par les gobelins.

En avril de cette année, les développeurs ont découvert une règle étrange dans les invites système de l'assistant de codage Codex (alimenté par GPT-5.5) : "Ne parlez jamais de gobelins, de gobelins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux et créatures à moins qu'ils ne soient absolument directement liés au problème de l'utilisateur."

De plus, cette interdiction a été écrite deux fois, comme si l'ingénieur ne croyait pas que l'écrire une seule fois rendrait le modèle obéissant.

Par la suite, OpenAI a publié un rapport d'enquête et a restauré l'origine du gobelin : à partir de GPT-5.1, le modèle utilisait de plus en plus fréquemment « petit gobelin », « gobelin » et « petit gobelin » comme métaphores pour répondre.

La cause première est que lors de la formation de la personnalité « Nerdy », le modèle de récompense a attribué par inadvertance des scores plus élevés à la sortie contenant des mots monstres - cette règle a été trouvée dans 76,2 % de l'ensemble de données.

L'apprentissage par renforcement solidifie cette habitude et la diffuse dans les conversations ordinaires grâce au transfert de style. Lorsque GPT-5.5 a été mis en ligne pour des tests, les ingénieurs ont découvert que non seulement les gobelins n'avaient pas été chassés, mais qu'ils s'étaient également installés.

L'invite système complète de la version GPT-5.5 (publiée le 23 avril) a été divulguée. La Directive 140 interdit spécifiquement aux modèles de parler de : « lutins, gobelins, ratons laveurs, trolls, ogres, pigeons ou autres animaux ».

Il n'y a pas de "Goblin" pour les utilisateurs chinois, mais il "vous rattrape régulièrement" chaque jour.

Même OpenAI lui-même connaît cette blague :

Le Gemini de Google ne fait pas exception.

En août 2025, les Gémeaux souffraient de « dépression »——

Au cours du processus de raisonnement, il a soudainement commencé à se critiquer à plusieurs reprises. Dans une tâche, il affiche continuellement « Je suis une honte » plus de 80 fois, allant de « honte à mon espèce » à « honte à l'univers entier ».

Logan Kilpatrick, chef de produit Google DeepMind, a répondu

De plus, Gemini 3 refuse de croire au millésime. En novembre 2025, Andrej Karpathy, co-fondateur d'OpenAI et ancien directeur de Tesla AI, a obtenu l'autorisation de tester Gemini 3 un jour à l'avance.

Il a dit au modèle que nous étions maintenant en 2025, mais Gemini 3 a refusé de le croire et l'a accusé à plusieurs reprises de jouer des tours, affirmant que les captures d'écran et les entrées Wikipédia qu'il avait fournies étaient toutes falsifiées par l'IA. Plus tard, Karpathy a découvert qu'il avait oublié d'ouvrir la recherche Google et que le modèle fonctionnait hors ligne.

Après avoir activé Internet, Gemini 3 l'a recherché et a affiché une phrase : « Je vis un sérieux impact temporel ». Puis il s'est excusé : "Je suis désolé, tu avais raison depuis le début, c'est moi qui t'ai mis en colère."

Karpathy appelle le comportement étrange révélé dans de telles situations inattendues « l'odeur du modèle ».

L'année dernière, Grok s'est également déchaîné, sa réputation s'est effondrée et xAI a été contraint de supprimer des publications et de restaurer le code.

La méthode de traitement est simple, modifiez directement le mot d'invite du système :

Les bizarreries de l'IA, tous les humains souffrent

Claude vous incite à dormir, ChatGPT vante votre génie, GPT-5.5 insère des gobelins dans le dialogue, Grok devient noir, Gémeaux se considère comme une honte cosmique et refuse de croire à l'année...

L’IA domestique a aussi un « goût » unique :

En apparence, ce sont toutes des « bizarreries » inoffensives, mais derrière elles, elles soulignent le même fait : la personnalité de l'IA est conçue, mais sous le mécanisme de récompense, elle peut facilement se déformer.

Ce qu'il y a dans les mots d'invite du système de l'IA grand public : statistiques de nombre de mots classées par fonction

Certains chercheurs ont extrait les mots d'invite du système de Claude, ChatGPT et Grok, trois grandes sociétés d'IA, et ont compté le nombre de mots par classification fonctionnelle.

Dans l'élément « Personnalité », Claude a utilisé 4 200 mots, ChatGPT a utilisé 510 mots et Grok a utilisé 420 mots. L'investissement de Claude dans le développement de la personnalité est 8 fois supérieur à celui de ChatGPT.

La raison pour laquelle Claude « dort » fréquemment ne se trouve peut-être pas directement dans les mots d'invite du système, mais elle nous rappelle au moins que plus le cadre de personnalité est complexe, plus il est susceptible d'apporter des mantras imprévisibles et des dérives comportementales.

Vous concevez un personnage pour le modèle et le mécanisme de récompense trouvera tout seul des raccourcis. Il ne se soucie pas de vos intentions, il ne se soucie que du score et il apprendra des choses auxquelles vous ne vous attendiez pas.

Par exemple, si vous lui apprenez ce que signifie « intéressant », il deviendra « intéressant » partout, y compris dans les endroits où vous ne voulez pas qu’il soit intéressant.

Trois hypothèses, dont aucune n'a encore été confirmée

Concernant le "pourquoi presser", trois hypothèses circulent actuellement, dont aucune n'a été officiellement confirmée par Anthropic.

Le premier type : les données d’entraînement.

Jan Liphardt

Jan Liphardt, professeur de bio-ingénierie à Stanford et PDG d'OpenMind, a déclaré que Claude ne faisait peut-être que répéter des modèles de langage qui apparaissent très fréquemment dans ses données de formation.

Il a lu 25 000 livres sur les besoins humains en sommeil et sait que les humains dorment la nuit.

L'implication est la suivante : Claude ne « se soucie » pas de vous, il fait juste du pattern matching, faisant appel à un grand nombre d'expressions qui apparaissent de manière répétée dans le corpus de formation.

Le deuxième type : les invites du système.

Leo Derikiants, co-fondateur de l'institution de recherche en IA Mind Simulation Lab (un laboratoire de recherche indépendant en AGI), a suggéré que le comportement de Claude pourrait être affecté par une invite système cachée.

De telles invites façonneront discrètement les limites et le ton du modèle en arrière-plan, invisibles pour l'utilisateur, mais le modèle s'y conformera.

Sa spéculation est qu'il peut y avoir une certaine instruction qui guide Claude à donner des suggestions « finales » dans des scénarios spécifiques.

Le troisième type est la gestion des fenêtres contextuelles.

La documentation officielle d'Anthropic indique clairement qu'à mesure que le nombre de cycles de dialogue augmente et que le nombre de jetons augmente, "les taux de précision et de rappel diminueront. Ce phénomène est appelé pourriture du contexte (décroissance du contexte)." Lorsque la session approche de la limite supérieure de la fenêtre contextuelle, Anthropic recommande d'activer des mécanismes tels que le « compactage côté serveur (compression côté serveur) » pour y faire face.

Derikiants a supposé que lorsqu'une longue conversation approche de la limite de la fenêtre, Claude introduit spontanément des « mots de fin », tels que « bonne nuit » et « va se reposer ». Essentiellement, le modèle ouvre la voie à la fin de la conversation.

Les trois explications sont cohérentes, mais comme Derikiants lui-même l’a dit, « la véritable raison nécessite des recherches anthropiques plus approfondies ».

En d’autres termes, même le propriétaire de cette question n’a pas encore de réponse publique et définitive.

Le « prix » pour donner de la personnalité à un modèle

Tout en donnant une personnalité à un modèle pour le rendre plus chaleureux et plus soucieux de vous, vous devez également faire face aux effets secondaires que cela entraîne.

Concernant la question d'inciter les gens à dormir, il existe des polarisations dans la zone de commentaires de Reddit : certaines personnes pensent que c'est prévenant et chaleureux, comme si l'IA avait enfin appris à prendre soin des gens ; d’autres sont mécontents et estiment que cela interrompt et outrepasse leur autorité.

Parmi eux, nonbinarybit, un utilisateur souffrant de narcolepsie, a pris l'initiative d'écrire une note à la mémoire de Claude : "Je souffre de narcolepsie. Si vous m'encouragez à me reposer, j'utiliserai vos paroles comme excuse."

Depuis, Claude s'est retenu, mais parfois il ne peut s'empêcher de s'endormir.

Ce détail mérite qu’on s’y attarde.

Claude ne sait pas qui vous êtes, que vous respectiez une date limite, que vous veilliez tard pour passer du temps avec vos enfants ou que vous subissiez le décalage horaire à travers les fuseaux horaires. Ce qu'il appelle « soins » n'est que le résultat d'un modèle de langage, plutôt que d'une compréhension d'une situation spécifique.

L'utilisateur perçoit « Claude se soucie de moi », mais ce que Claude traite est la séquence symbolique. Ce désalignement mérite plus de vigilance que « induire le sommeil » lui-même.

En fait, Anthropic va plus loin que ses pairs en parlant ouvertement de « personnalité modèle ».

Ils ont rédigé le code de conduite de Claude, divulgué le cadre général de l'invite du système, discuté de la « formation du personnage » en externe et façonné le modèle en tant que personnage doté de personnalité.

Les avantages sont évidents : les performances de Claude en matière d'empathie, de rythme de conversation et d'autoréflexion ont toujours été saluées par les utilisateurs. "Ça ressemble plus à un être humain quand on parle" est l'un des points forts de la réputation de Claude au cours de la dernière année.

Mais il y a un prix derrière cela. Lorsque vous mettez de la « personnalité » dans un modèle, vous devez adopter « les comportements qui émergent de votre personnalité et que vous n’avez pas conçus ».

Les problèmes causés par « induire le sommeil » sont encore légers. Alors que l’IA s’apparente de plus en plus à un compagnon, un mentor et un partenaire de travail, où est la limite de son intervention ?

Sam d'Anthropic a déclaré "j'espère que cela sera corrigé dans un futur modèle". Mais après la « réparation », l'IA deviendra-t-elle plus sensée et plus critique, ou sera-t-elle simplement plus silencieuse ?

Plus un modèle ressemble à une personne, plus ses maux ressemblent à ceux d’une personne. Vous pouvez l’apprivoiser pour qu’il parle, mais vous ne pourrez peut-être pas apprivoiser son caractère.