Le nouveau benchmark SWE-CI montre que 75 % des agents de codage IA cassent le code fonctionnel au fil du temps

Un nouveau benchmark de chercheurs d'Alibaba remet en question le discours selon lequel les agents de codage IA sont prêts à remplacer les développeurs humains. Publié le 4 mars 2026, SWE-CI est le premier cadre d'évaluation qui teste les agents IA sur ce que les ingénieurs logiciels passent réellement la majeure partie de leur temps à faire : maintenir et faire évoluer des bases de code existantes via des workflows d'intégration continue.

Les résultats sont préoccupants. 75 % des modèles testés cassent du code précédemment fonctionnel lors de tâches de maintenance à long terme — même lorsqu'ils produisent initialement des correctifs qui passent tous les tests.

Ce qui rend SWE-CI différent

La plupart des benchmarks existants comme SWE-bench évaluent les agents sur des tâches isolées : corriger ce bug, implémenter cette fonctionnalité, passer ces tests. SWE-CI adopte une approche fondamentalement différente en simulant le cycle de vie complet de projets logiciels réels.

Chacune des 100 tâches du benchmark correspond à l'historique d'évolution d'un véritable dépôt Python, couvrant en moyenne 233 jours et 71 commits consécutifs. Les agents doivent travailler à travers des dizaines de cycles itératifs d'analyse et de codage — exactement comme un développeur réel maintenant une base de code en production.

Le benchmark a été constitué à partir de 4 923 dépôts candidats, en filtrant les projets ayant :

Plus de 3 ans de maintenance active
Plus de 500 étoiles sur GitHub
Des licences open source permissives
Au moins 500 lignes de code modifiées

Les résultats : un retour à la réalité

Les chercheurs ont testé 18 modèles de 8 fournisseurs, incluant Claude, GPT, DeepSeek, Qwen, MiniMax, Kimi, GLM-5 et Doubao. Les résultats révèlent une division nette :

Les modèles Claude Opus étaient les seuls à dépasser un taux de zéro-régression de 50 % — ce qui signifie qu'ils ont réussi à éviter de casser les fonctionnalités existantes plus de la moitié du temps
GLM-5 s'est imposé comme un solide second performeur
Tous les autres modèles ont obtenu moins de 25 % en taux de zéro-régression

Au sein d'une même famille de fournisseurs, les modèles plus récents ont systématiquement obtenu de meilleurs scores, les modèles sortis après janvier 2026 affichant les gains les plus importants.

EvoScore : une nouvelle mesure de la qualité du code

L'une des contributions majeures de SWE-CI est EvoScore, une nouvelle métrique d'évaluation qui pénalise l'optimisation à court terme. Contrairement aux métriques traditionnelles de réussite/échec des tests, EvoScore accorde un poids plus important aux itérations tardives qu'aux premières.

Ce choix de conception expose un schéma d'échec courant : des agents qui produisent des corrections rapides au début mais accumulent une dette technique causant des défaillances en cascade dans les commits suivants.

Pourquoi c'est important

L'écart entre les performances en benchmark et l'utilité réelle est devenu une préoccupation croissante dans le domaine du codage IA. Les développeurs utilisant des outils comme Cursor, Claude Code et Devin rapportent de bons résultats pour le développement de nouveaux projets mais de la frustration pour les tâches de maintenance — le travail qui consomme typiquement 60 à 80 % du temps d'un ingénieur logiciel.

Comme l'a résumé un chercheur : "Passer les tests une fois, c'est le minimum. Ne pas tout casser au fil du temps, c'est le vrai travail."

Les résultats de SWE-CI suggèrent que l'industrie du codage IA optimisait pour la mauvaise métrique. Écrire du nouveau code est la partie facile. La partie difficile — et celle où les agents IA sont encore en retard — est de maintenir, faire évoluer et ne pas faire régresser une base de code vivante sur des mois de développement continu.

La suite

Le benchmark est disponible en accès libre sous licence CC BY 4.0, et les chercheurs ont appelé la communauté à adopter l'évaluation de la maintenance à long terme comme pratique standard pour les outils de codage IA.

Pour les équipes de développement évaluant des assistants de codage IA, SWE-CI offre une perspective plus réaliste : non pas si un agent peut écrire du code, mais s'il peut être fiable pour maintenir le code fonctionnel dans le temps.

Source : SWE-CI : Évaluation des capacités des agents dans la maintenance des bases de code via l'intégration continue

Ce qui rend SWE-CI différent

Les résultats : un retour à la réalité

EvoScore : une nouvelle mesure de la qualité du code

Pourquoi c'est important

La suite

Discutez de votre projet avec nous