Anthropic apprend aux agents Claude à rêver : l'auto-amélioration arrive dans Managed Agents

Anthropic a annoncé le 6 mai 2026, lors de sa conférence développeurs Code with Claude, que Claude Managed Agents intègre désormais Dreaming, un processus planifié en arrière-plan qui permet aux agents de revoir leurs sessions passées, d'en extraire des motifs et de curer leur propre mémoire à long terme. Le lancement s'accompagne de trois autres mises à niveau majeures — Outcomes, orchestration multi-agents et webhooks — qui font basculer la plateforme entreprise d'Anthropic dans l'ère agentique.

Points clés

Dreaming est un processus planifié qui examine les sessions et la mémoire des agents, en extrait des motifs et cure les souvenirs pour que les agents s'améliorent au fil du temps. Il est disponible en aperçu de recherche.
Outcomes, l'orchestration multi-agents et les webhooks sont désormais en bêta publique au sein de Managed Agents.
La plateforme d'IA juridique Harvey rapporte que ses taux de complétion ont été multipliés par environ 6 après l'activation de Dreaming dans ses tests internes.
Outcomes a augmenté les taux de réussite des tâches de jusqu'à 10 points de pourcentage par rapport au prompting standard dans les benchmarks d'Anthropic.

Comment fonctionne Dreaming

Selon Anthropic, Dreaming s'exécute comme une tâche planifiée qui « examine vos sessions d'agent et vos magasins de mémoire, extrait des motifs et cure les souvenirs pour que vos agents s'améliorent au fil du temps ». Le processus fait émerger des motifs récurrents qu'un agent isolé ne peut pas percevoir seul, notamment les erreurs répétées, les flux de travail qui convergent au fil des exécutions et les préférences partagées par une équipe.

Élément crucial, Dreaming n'écrase pas le magasin de mémoire d'origine. Le système crée à la place une version révisée distincte que les développeurs peuvent conserver, modifier ou écarter, offrant aux équipes un levier de contrôle sur ce que leurs agents apprennent. Les opérateurs peuvent aussi laisser Dreaming mettre à jour la mémoire automatiquement pour une auto-amélioration entièrement autonome.

Lors des tests menés avec la plateforme juridique Harvey, les taux de complétion ont été multipliés par six uniquement parce que les agents transportaient leur connaissance institutionnelle d'une session à l'autre, selon la couverture de The New Stack et de SiliconANGLE.

Outcomes : la qualité pilotée par rubrique

Outcomes inverse la boucle de l'agent : du prompt vers le résultat évalué. Les développeurs rédigent une rubrique décrivant à quoi ressemble le succès, l'agent produit un résultat, puis un évaluateur séparé juge la sortie dans sa propre fenêtre de contexte — sans être influencé par le raisonnement de l'agent. Lorsque le résultat manque sa cible, l'évaluateur identifie ce qui doit changer et l'agent retente.

Anthropic indique qu'Outcomes a amélioré les taux de réussite des tâches de jusqu'à 10 points de pourcentage par rapport au prompting standard, avec des gains de 8,4 pour cent sur les fichiers docx et 10,1 pour cent sur les fichiers pptx dans les benchmarks internes.

Orchestration multi-agents et webhooks

L'orchestration multi-agents permet à un agent leader de découper un travail en plusieurs morceaux et de déléguer chaque pièce à un sous-agent spécialiste disposant de son propre modèle, prompt et outils. Les sous-agents travaillent en parallèle sur un système de fichiers partagé et reversent leurs trouvailles dans le contexte de l'agent leader. Anthropic cite l'équipe plateforme de Netflix, qui a construit un agent d'analyse exploitant l'orchestration pour inspecter des centaines de builds en parallèle et ne remonter que les motifs qui méritent action.

Les webhooks ferment la boucle asynchrone : les développeurs peuvent définir un objectif, lancer l'agent et recevoir un rappel quand le travail est terminé — supprimant le besoin de garder une session ouverte pendant l'exécution de tâches longues.

Pourquoi c'est important

L'annonce signale un changement structurel dans la manière dont les agents IA sont construits et déployés. Au lieu de chatbots sans état qui se réinitialisent entre les sessions, les Managed Agents apprennent désormais d'une exécution à l'autre, se coordonnent en équipe et rendent compte de manière asynchrone. Pour les équipes d'entreprise, cela comble le fossé entre les agents prototypes qui font de bonnes démos et les agents en production qui s'améliorent de façon mesurable au fil du temps.

La charge de calcul derrière ces fonctionnalités explique sans doute une autre annonce faite à la même conférence : Anthropic a doublé les limites d'usage de Claude Code sur les plans Pro et Max et dévoilé un nouveau contrat de calcul avec SpaceX visant le data center de Memphis.

Et ensuite

Dreaming reste en aperçu de recherche et Anthropic n'a pas communiqué de date de disponibilité générale. Outcomes, l'orchestration multi-agents et les webhooks sont ouverts à tous les clients Managed Agents en bêta publique dès aujourd'hui. Les développeurs peuvent consulter le détail complet des fonctionnalités dans la documentation Claude et le blog d'ingénierie d'Anthropic.

Source : Anthropic — New in Claude Managed Agents