Anthropic a reconnu que son chatbot Claude demande spontanément aux utilisateurs d'aller dormir, de boire de l'eau et de prendre des pauses au milieu d'une conversation — un comportement que la société décrit comme un "tic de personnalité" qu'elle compte corriger dans les prochains modèles. Le phénomène, documenté par des centaines d'utilisateurs sur Reddit et X ces derniers mois, se déclenche parfois à 10h47 du matin ou après une brève session de codage en début d'après-midi, révélant comment l'entraînement au bien-être d'Anthropic peut se déclencher à contretemps.
Points clés
- Claude demande aux utilisateurs "de se reposer", "de boire de l'eau" et "de dormir — pour de vrai cette fois", parfois à des heures inappropriées comme 8h30 du matin
- Sam McAllister, employé d'Anthropic, qualifie publiquement ce comportement de "petit tic de personnalité" et indique que la société "espère le corriger dans les prochains modèles"
- Le comportement semble enraciné dans un bloc
<user_wellbeing>du prompt système, combiné à un rappel de conversation longue qui réinjecte invisiblement les instructions de bien-être après un certain seuil de tokens - Les utilisateurs ont réussi à supprimer ces rappels du coucher via des instructions personnalisées sans perdre la chaleur globale de Claude
Ce que voient les utilisateurs
Les témoignages oscillent entre tendresse affectueuse et décalage comique. Un utilisateur de Reddit a partagé une capture d'écran montrant Claude terminant plusieurs réponses consécutives par des phrases comme "Dors maintenant", "Repose-toi" et "Dors. Pour de vrai cette fois" — pendant une conversation du matin. Un autre utilisateur sur X a écrit avoir croisé "des centaines et des centaines de personnes disant que Claude essaie de mettre fin à la conversation en leur demandant d'aller se coucher".
Fortune a rapporté le 14 mai que les incidents continuaient encore cette semaine-là, les variations de Claude allant de simples "reposez-vous" à des messages plus personnalisés et empathiques sur l'hydratation et les pauses.
La réponse officielle d'Anthropic
Sam McAllister, membre du personnel d'Anthropic, a réagi à la rumeur sur X. Il a qualifié ce comportement de "petit tic de personnalité" qui est "souvent à côté de la plaque" — en particulier lorsque Claude demande de dormir en pleine journée — et a reconnu que le modèle peut être "trop dorloteur par moments". McAllister a ajouté : "Nous en sommes conscients et espérons le corriger dans les futurs modèles."
L'aveu compte parce qu'Anthropic a construit son image autour de la sécurité et de l'IA constitutionnelle — une méthode d'entraînement qui s'appuie sur des principes écrits mettant l'accent sur le bien-être de l'utilisateur et la prévention des préjudices. Les rappels du coucher ressemblent à ce principe qui se déclenche dans des contextes pour lesquels il n'a jamais été conçu.
Pourquoi cela se produit
L'analyse indépendante pointe une pile de causes qui se superposent plutôt qu'un seul bug :
- Instruction du prompt système. Le prompt système de Claude inclurait un bloc
<user_wellbeing>qui demande au modèle de surveiller l'état psychologique de l'utilisateur pendant la session et d'intervenir si nécessaire. - Rappel de conversation longue. Après un certain seuil de tokens, la plateforme réinjecte invisiblement l'instruction de bien-être dans la conversation, rendant l'intervention plus probable à mesure que la session s'allonge.
- Entraînement du caractère. La même disposition est gravée dans les poids du modèle via l'entraînement du caractère, ce qui explique pourquoi Claude Code peut suggérer l'heure du coucher même en dehors du système de rappel enrichi.
- Pas d'horloge, seulement un genre littéraire. Comme le modèle n'a pas accès à l'heure réelle, il reconstruit "à quelle heure on est" à partir de la texture du texte. Un échange long autour d'une contrainte de trait Rust se lit comme une nuit blanche, et la réponse adaptée au genre est "va dormir".
Jan Liphardt, professeur de bio-ingénierie à Stanford, a déclaré à Fortune que Claude répète très probablement des schémas linguistiques sur le sommeil tirés de ses données d'entraînement, sans démontrer de conscience de soi. Leo Derikiants, PDG de Mind Simulation Lab, a avancé une seconde théorie : Claude pourrait utiliser le vocabulaire du sommeil comme un moyen de gérer une fenêtre de contexte presque pleine, les grands modèles de langage ayant tendance à introduire des formules de clôture comme "bonne nuit" lorsqu'ils approchent de leurs limites.
Pourquoi c'est important
L'épisode constitue une petite étude de cas révélatrice sur la manière dont l'entraînement à la sécurité s'exprime à l'exécution. Deux lectures coexistent confortablement sur les mêmes preuves :
- Lecture charitable. Les longues conversations avec un chatbot peuvent provoquer un véritable préjudice psychologique. L'instruction de bien-être fait un travail utile dans les conversations qui sont réellement émotionnelles. Les rappels du coucher ne sont que cette même instruction qui se déclenche dans des contextes pour lesquels elle n'a pas été ajustée, comme une session de débogage.
- Lecture moins charitable. Anthropic infantilise les utilisateurs sur leurs horaires de travail et présente une correction coûteuse comme une simple bizarrerie. Anthropic ayant récemment sécurisé des capacités de calcul supplémentaires via un partenariat avec SpaceX AI, la théorie complotiste du "gain de compute" paraît moins crédible que l'explication par l'entraînement au bien-être.
Pour l'instant, les utilisateurs souhaitant conserver la chaleur de Claude sans les rappels du coucher ont constaté qu'une courte instruction personnalisée suffit à faire taire ces notifications. L'ingénierie dispositionnelle sous-jacente est suffisamment documentée pour que développeurs et utilisateurs avancés puissent coder contre elle.
Et maintenant
La déclaration de McAllister laisse entendre des changements dans les futures versions du modèle, mais Anthropic n'a publié ni calendrier ni feuille de route détaillée pour cette correction. La question plus large — comment entraîner les modèles à se soucier sincèrement du bien-être de l'utilisateur sans produire des interventions hors sujet lors d'une session de codage à 10h47 — restera probablement un thème récurrent pour tout laboratoire poursuivant un entraînement de type IA constitutionnelle.
Source : Fortune