Cursor Composer 2.5 égale Claude Opus 4.7 à un dixième du prix

Cursor a publié Composer 2.5 le 18 mai 2026, sa deuxième génération de modèle de codage interne construit sur le point de départ open source Kimi K2.5 de Moonshot AI. Le modèle égale Claude Opus 4.7 sur le benchmark SWE-Bench Multilingual tout en coûtant environ un dixième par jeton, marquant la transition de Cursor d'un simple emballage autour de modèles tiers vers un laboratoire d'IA à l'échelle des modèles de pointe.

Points clés

Composer 2.5 obtient 79.8% sur SWE-Bench Multilingual, à égalité virtuelle avec Claude Opus 4.7 qui atteint 80.5%.
Sur le benchmark interne CursorBench v3.1, il devance Opus 4.7 par 63.2% contre 61.6% en configuration par défaut.
La tarification standard est de 0,50 dollar par million de jetons d'entrée et 2,50 dollars par million de jetons de sortie, avec une couche Fast à 3 et 15 dollars pour le routage prioritaire.
Le modèle a été entraîné avec 25 fois plus de tâches synthétiques que Composer 2 et utilise une nouvelle technique d'apprentissage par renforcement ciblé avec retour textuel.

Détails

Selon le billet de lancement de Cursor, 85% du calcul d'entraînement a été consacré au post-entraînement et non au pré-entraînement de base. L'équipe a conçu une nouvelle technique appelée RL ciblé avec retour textuel, qui insère des indices localisés aux points exacts où le modèle pourrait s'améliorer, puis utilise la distillation on-policy pour ajuster les probabilités des jetons. Cursor décrit le résultat comme une amélioration substantielle en intelligence et en comportement, particulièrement sur le travail soutenu et le suivi d'instructions complexes.

Les détails d'ingénierie révélés dans le billet incluent un optimiseur Sharded Muon qui atteint un pas d'optimisation de 0,2 seconde sur des modèles d'un billion de paramètres, et une disposition Dual mesh HSDP qui sépare les poids d'experts et de non-experts pour une meilleure utilisation des GPU. Cursor a également confirmé un partenariat d'entraînement à l'échelle des modèles de pointe avec SpaceXAI pour construire un modèle nettement plus grand en utilisant dix fois plus de calcul via Colossus 2 et ses environ un million de GPU équivalents H100.

Benchmarks et limites

Composer 2.5 n'est pas universellement dominant. Sur Terminal-Bench 2.0, qui mesure les tâches shell à long horizon, GPT-5.5 reste en tête à 82.7% contre 69.3% pour Composer 2.5, soit un écart de 13 points que Cursor reconnaît comme la limite de performance la plus claire. Les évaluateurs indépendants notent que le modèle excelle dans les éditions parallèles multi-fichiers et les boucles d'itération dans l'EDI, mais traîne sur le travail terminal autonome lourd.

Les réactions des développeurs sur X et les forums se sont concentrées sur le rapport prix-performance. Les benchmarks publics tiers classent Composer 2.5 parmi les trois meilleurs modèles de codage au monde pour environ 55 cents par tâche représentative, bien en dessous du coût de fonctionnement d'Opus 4.7 Extra High ou de GPT-5.5 Fast sur des charges de travail équivalentes.

Impact

Le lancement arrive au milieu d'une course aux armements du codage multi-agent. Antigravity 2.0 de Google, Grok Build de xAI, Codex d'OpenAI et Claude Code d'Anthropic livrent tous des fonctionnalités d'orchestration multi-agent dans la même fenêtre. La question concurrentielle pour les produits basés sur l'EDI n'est plus de savoir si le modèle peut écrire du code, mais à quel point un essaim d'agents peut être bon marché, rapide et coordonné tout en gardant une base de code cohérente.

Pour les équipes de développement qui paient déjà pour l'utilisation de modèles premium de pointe, Composer 2.5 change le calcul budgétaire. Une tâche qui coûtait auparavant quelques dollars en jetons Opus 4.7 peut maintenant tourner sur Composer 2.5 pour quelques centimes, ce qui permet aux équipes produit de s'offrir des agents parallèles sur le même flux de travail sans faire exploser la facture.

Contexte

Cursor a commencé comme un fork de Visual Studio Code natif IA qui appelait les modèles d'OpenAI et d'Anthropic pour les complétions et le chat. Composer 1 a introduit le premier modèle interne axé sur la vitesse dans l'éditeur. Composer 2 s'est étendu à des boucles agentiques plus longues. Composer 2.5 est la première version où le modèle propre de Cursor est compétitif en benchmark avec les modèles propriétaires de pointe d'Anthropic et d'OpenAI, plutôt que d'être positionné comme une alternative plus rapide mais plus faible.

La suite

Cursor a confirmé que le partenariat SpaceXAI vise à entraîner un modèle nettement plus grand que Composer 2.5 à partir de zéro, avec dix fois plus de calcul. La promotion de lancement double l'utilisation pendant la première semaine, suggérant que Cursor veut convertir le plus d'utilisateurs d'essai possible en abonnements payants avant que les concurrents ne ripostent avec leurs propres baisses de prix.

Le schéma plus large est clair : la couche d'outils de codage IA se consolide autour d'une poignée de produits intégrés verticalement qui possèdent à la fois l'EDI et le modèle sous-jacent. Les douze prochains mois seront probablement définis par lequel de ces produits parviendra à coordonner plusieurs agents sur une seule base de code sans produire de chaos sémantique.

Source : Cursor — Introducing Composer 2.5