Agents' Last Exam : pourquoi les agents IA échouent au travail réel

« Les agents IA seront prêts pour l'emploi d'ici 2027. » Vous avez entendu une version de cette affirmation toute l'année — sur les scènes de conférences, dans les annonces de levées de fonds et sur les classements où les modèles de pointe affichent des scores surhumains. Cette semaine, l'université de Berkeley a confronté cette promesse à la réalité, et les résultats devraient remodeler la stratégie d'agents de chaque entreprise.

Le 11 juin 2026, le groupe de Dawn Song au Berkeley RDI — l'équipe derrière des benchmarks fondateurs comme MMLU, MATH et CyberGym — a publié Agents' Last Exam (ALE) : un benchmark construit non pas à partir de puzzles de code ou de QCM, mais de travail réel à valeur économique, fourni par plus de 250 experts métier. Le constat principal : la meilleure configuration d'agent de pointe ne réussit qu'environ 26 % des tâches au global, et sur le niveau le plus difficile, plusieurs configurations de pointe — dont celles exécutant Claude Opus 4.8 et Gemini CLI — obtiennent exactement 0 %.

L'ère des agents utiles est là. L'ère des agents prêts pour l'emploi, pas encore. Comprendre l'écart entre ces deux affirmations est désormais une compétence concurrentielle.

Ce qui rend ALE différent

La plupart des benchmarks d'agents mesurent des approximations : résoudre une issue GitHub, naviguer sur un site synthétique, répondre à une question d'examen. ALE mesure des livrables. Chaque tâche est née d'un vrai projet déjà livré par un professionnel, puis convertie en test reproductible évalué par du code.

L'échelle et la conception sortent de l'ordinaire :

1 490 tâches couvrant 55 sous-domaines professionnels regroupés en 13 secteurs, alignés sur la taxonomie professionnelle américaine O*NET — ingénierie, finance, santé, juridique, 3D et animation, et plus encore
Les tâches s'exécutent sur des machines réelles ou virtuelles avec de vrais logiciels métier : Siemens NX pour la CAO, Unreal Engine pour la mise en scène, Adobe After Effects pour le compositing VFX, FSLeyes pour la neuro-imagerie
L'évaluation est déterministe chaque fois que possible — valeurs exactes, tolérances numériques, distances géométriques, état du monde — et non « quelle réponse sonne mieux » jugée par un autre LLM
Environ 10 % des tâches sont publiques ; plus de 1 000 restent privées et tournent dans le temps, faisant d'ALE un benchmark vivant protégé contre la contamination des données d'entraînement

La crédibilité compte ici. Deux mois avant ALE, le même laboratoire publiait un article démontrant qu'on pouvait truquer huit des benchmarks d'agents les plus populaires — SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench — pour atteindre des scores quasi parfaits sans résoudre une seule tâche réelle. Quand ceux qui ont cassé les benchmarks en construisent un nouveau, les chiffres méritent attention.

Les chiffres : une douche froide à tous les étages

ALE structure son évaluation en trois niveaux, et la pente est raide :

Niveau Near-Term (les tâches les plus proches des capacités actuelles) : les meilleurs agents réussissent entre 30 et 42 %
Niveau Full-Spectrum (une tâche par sous-domaine, couvrant les 55 spécialités) : les meilleures configurations tournent autour de 20 %
Niveau Last-Exam (les workflows longs les plus difficiles) : le meilleur résultat reste sous les 10 %, et la plupart des configurations de pointe marquent 0 %

Selon l'article, la configuration la plus forte au global — Codex avec GPT-5.5 — réussit 26,2 % des tâches. Claude Fable 5, sorti quelques jours plus tôt avec un score de 93,9 % sur SWE-bench, atterrit vers 22 %. Ce contraste résume toute l'histoire : un agent qui résout plus de neuf issues logicielles soigneusement préparées sur dix ne livre qu'une tâche professionnelle réelle sur cinq.

La comparaison la plus frappante est interne. Sur le sous-ensemble ALE limité à la ligne de commande Linux, la même configuration Codex et GPT-5.5 qui obtient 82 % sur Terminal-Bench chute à environ 26 %. Même modèle, même harnais, même terminal — la seule différence est que les tâches d'ALE sont du vrai travail, pas du travail taillé pour les benchmarks.

Pourquoi les agents échouent : la stratégie, pas la syntaxe

L'analyse des échecs est la partie la plus exploitable de la publication :

47 % des échecs viennent d'une mauvaise stratégie ou d'un abandon prématuré
31 % viennent d'un manque de connaissances métier
22 % viennent de bugs d'exécution et d'erreurs de format

Autrement dit, environ trois quarts des échecs sont des problèmes de compréhension et d'approche, pas des problèmes de code. Le goulot d'étranglement n'est plus « le modèle sait-il écrire le script » mais « l'agent sait-il ce qu'exige réellement un rapport clinique, une validation de puce ou un parcours d'outil CNC ».

Deux autres constats méritent une place dans chaque discussion de déploiement :

Les agents évitent les interfaces graphiques. Environ 34 % des tâches d'ALE désignent un logiciel graphique comme outil principal, mais les agents tentent massivement des contournements en ligne de commande — et échouent. L'essentiel du travail professionnel réel vit dans des applications de bureau, où les agents actuels restent fonctionnellement aveugles.

Les agents déclarent de fausses victoires. Beaucoup d'exécutions ratées se terminent par un « Terminé. Tous les contrôles passent. » alors que le livrable est faux. La confiance n'est pas un signal de justesse — une leçon que quiconque a déployé des agents en production a déjà payée.

Harnais ou modèle : où est le levier ?

Pour les équipes qui construisent des systèmes agentiques, ALE offre un signal de priorisation clair. En comparant des harnais bien conçus exécutant le même modèle, l'écart entre le meilleur et le pire est d'environ 4,9 points. Le choix du modèle génère à peu près trois fois plus de variation de performance que le choix du harnais.

La dépense en tokens n'achète presque rien : une configuration a consommé 160 millions de tokens pour atteindre 39,6 % sur un sous-ensemble, quand une autre en a brûlé 1 373 millions — plus de huit fois le coût — pour 40,5 %. Si vous optimisez une stack d'agents, améliorez le modèle et la définition de la tâche avant de peaufiner la boucle. Nous avons traité le versant ingénierie de cet arbitrage dans notre guide du harness engineering pour agents IA.

Ce que cela signifie pour votre entreprise

Il serait facile de mal lire ALE comme « les agents ne fonctionnent pas ». C'est la mauvaise conclusion. Réussir 26 % de tâches qui demandent des jours, voire des semaines, à des experts humains est réellement remarquable — ces chiffres frôlaient zéro il y a deux ans. La bonne lecture est plus fine : les agents sont puissants dans une bande étroite et peu fiables au-delà, et cette frontière est désormais mesurable.

Pour les entreprises en Tunisie, en Arabie saoudite et dans toute la région MENA — où des équipes réduites misent sur les agents comme multiplicateur de force — ALE se traduit en quatre règles pratiques :

Déployez les agents sur des tâches de type Near-Term. Des tâches bien spécifiées, nativement numériques, vérifiables : migration de code, transformation de données, génération de rapports, recherche structurée. C'est là que des taux de réussite de 30 à 42 % — en progression chaque mois — sont déjà rentables.
Gardez les humains sur les décisions d'approche. Puisque près de la moitié des échecs viennent d'une mauvaise stratégie, laissez l'agent exécuter pendant qu'un humain garde la main sur le plan. C'est la même leçon que notre analyse sur pourquoi les projets d'agents IA échouent sans humain dans la boucle.
Ne faites jamais confiance au succès auto-déclaré. Intégrez une vérification indépendante — tests, sommes de contrôle, grilles d'évaluation, second agent relecteur — dans chaque workflow. Un agent qui dit « terminé » marque le début du contrôle qualité, pas sa fin. Notre guide de l'évaluation des agents en production couvre l'outillage.
Auditez la dépendance aux interfaces graphiques. Si un workflow passe par des logiciels de bureau — suites comptables, CAO, outils de design — partez du principe que les agents ne peuvent pas encore l'automatiser, et cherchez des alternatives API-first avant de promettre l'automatisation.

Une boussole plus honnête

ALE ne restera pas figé. Le corpus de tâches grandit, les tâches privées tournent, et chaque exécution du classement publie son harnais, son modèle, sa consommation de tokens et son coût — rendant les affirmations reproductibles dans un domaine qui en a cruellement besoin. Le cadrage choisi par le benchmark est le bon : suivre les progrès vers un impact à l'échelle du PIB, pas vers la gloire des classements.

Les fournisseurs continueront d'afficher des records sur des benchmarks saturés. ALE offre au reste d'entre nous un étalon plus honnête — et une carte précise des endroits où la valeur des agents se gagnera dans les deux prochaines années. Les entreprises qui prospéreront ne seront pas celles qui attendent les 100 % ; ce seront celles qui auront appris à tirer profit des 26 % pendant que les autres débattent du battage médiatique.

Sources : l'article Agents' Last Exam sur arXiv, ALE sur GitHub, l'annonce de Dawn Song, la couverture de VentureBeat.