Anthropic lance Claude Opus 4.7 avec un record de 64,3 % sur SWE-bench Pro

Anthropic a publié Claude Opus 4.7 le 16 avril, reprenant de justesse la tête du classement du modèle de langage le plus puissant généralement disponible grâce à un bond de 10,9 points sur le benchmark de codage SWE-bench Pro. Le nouveau modèle phare arrive quelques jours à peine après que xAI, OpenAI et Google ont chacun rafraîchi leurs propres gammes frontières, et s'inscrit dans un pivot plus large de l'industrie vers les charges de travail de codage agentique.

Points clés

Le score SWE-bench Pro passe de 53,4 % sur Opus 4.6 à 64,3 % sur Opus 4.7.
SWE-bench Verified grimpe de 80,8 % à 87,6 %, et Terminal-Bench 2.0 atteint 69,4 %.
Anthropic affirme que la résolution des tâches en production est environ trois fois meilleure sur l'évaluation SWE-bench de Rakuten.
La tarification reste stable à 5 dollars par million de jetons d'entrée et 25 dollars par million de jetons de sortie.
L'entrée visuelle passe de 1,15 à 3,75 mégapixels, permettant de traiter captures d'écran denses et maquettes de design en pleine fidélité.
Un nouveau niveau d'effort « xhigh » se place entre high et max, et Claude Code gagne une commande /ultrareview qui simule un relecteur humain senior.

Détails

Le modèle est disponible dès le premier jour sur Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, suivant le même schéma de déploiement qu'Opus 4.6. L'évaluateur indépendant LayerLens rapporte une autre progression sur Humanity's Last Exam, où Opus 4.7 a obtenu 30,8 % contre 18,6 % pour Opus 4.6 — un gain de 12,2 points sur l'un des benchmarks les plus résistants à la contamination en production.

La mise à jour vise directement le codage agentique. Anthropic souligne que le modèle traite les tâches de longue durée avec plus de rigueur, suit les instructions avec plus de précision et vérifie ses propres sorties avant de les restituer. Dans l'environnement Claude Code, la nouvelle commande /ultrareview va au-delà des vérifications syntaxiques pour signaler les défauts de conception subtils et les lacunes logiques, positionnant la fonctionnalité face aux flux de revue multi-agents lancés par Codex d'OpenAI et GitHub Copilot.

L'astérisque Mythos

La carte système d'Anthropic reconnaît qu'Opus 4.7 ne fait pas progresser la frontière des capacités. Ce titre revient encore à Mythos, le modèle interne qu'Anthropic pilote auprès d'un petit groupe de partenaires qui compterait Nvidia, JPMorgan Chase, Google, Apple et Microsoft. Les développeurs qui bâtissent sur l'API publique paient le même prix pour ce qu'Anthropic décrit comme la version de second rang.

Des évaluateurs indépendants ont relevé d'autres compromis passés sous silence dans l'annonce officielle. Selon TechLint Lab, les performances en contexte long sur le benchmark MRCR v2 à 1 million de jetons sont tombées de 78,3 % sur Opus 4.6 à 32,2 % sur Opus 4.7, soit une régression de 46 points documentée dans la carte système mais absente du billet de lancement. Un nouveau tokeniseur associe aussi le même texte à un nombre de jetons environ 1,0 à 1,35 fois plus élevé selon le type de contenu, ce que la société d'analyse Finout estime pouvoir se traduire par une hausse de coût mensuelle de 35 % sur des charges de travail identiques, malgré un tarif par jeton inchangé.

Impact

Pour les équipes de codage agentique, Opus 4.7 représente une mise à niveau immédiate. Le bond sur SWE-bench Pro figure parmi les plus gros gains en une seule version observés cette année, et la revendication du benchmark de production Rakuten — trois fois plus de tâches résolues — suggère que les copilotes de codage en conditions réelles devraient gagner en fiabilité sur les tickets difficiles. Les équipes déjà branchées sur Claude Code peuvent tester la nouvelle commande /ultrareview sur des pull requests existantes sans travail de migration.

Les équipes qui exploitent des pipelines de récupération en contexte long, des questions-réponses multilingues ou des agents orientés terminal peuvent préférer attendre ou rediriger ces charges de travail ailleurs. GPT-5.4 reste en tête sur la recherche agentique à 89,3 % contre 79,3 % pour Opus 4.7, et la chute de 46 points sur MRCR v2 à 1 million de jetons compte beaucoup pour quiconque injecte une base de code entière ou de longues transcriptions dans une seule invite.

Contexte

Opus 4.7 est la quatrième version ponctuelle de la ligne 4.x d'Anthropic, après Opus 4.5 fin 2025, Opus 4.6 début 2026, et le lancement de Sonnet 5 annoncé plus tôt ce printemps. Cette cadence souligne la vitesse à laquelle les laboratoires frontières itèrent : Grok 4.3 de xAI est apparu cette semaine sur les menus payants, GPT-5.4 d'OpenAI a été livré quelques jours plus tôt avec l'utilisation d'ordinateur et un contexte de 4 millions de jetons, et GLM-5.1 de Zhipu, en open source, a atteint 58,4 % sur SWE-bench Pro seulement dix jours avant qu'Opus 4.7 ne porte la barre à 64,3 %.

Anthropic a levé 30 milliards de dollars en Série G à une valorisation de 380 milliards de dollars plus tôt cette année, offrant à l'entreprise la marge financière pour continuer à livrer à ce rythme tout en réservant les modèles de classe Mythos à ses partenaires stratégiques.

Prochaines étapes

Anthropic n'a pas communiqué de calendrier public pour la disponibilité générale de Mythos, mais le schéma suivi avec Opus 4.6 laisse entrevoir une version ponctuelle 4.8 ou Sonnet 5.1 dans quatre à huit semaines. Les prochaines mises à jour devraient cibler les zones où Opus 4.7 a perdu du terrain : récupération en contexte long, questions-réponses multilingues et codage en terminal. Les développeurs qui envisagent une migration depuis Opus 4.6 devraient d'abord piloter le modèle sur des charges de codage agentique, puis mesurer soigneusement le nombre de jetons avant un déploiement plus large.

Source : VentureBeat — Anthropic lance Claude Opus 4.7