Moonshot AI lance Kimi K2.6 : un modèle open source qui dépasse Claude Opus 4.6 sur SWE-Bench et orchestre 300 agents en parallèle

Basée à Pékin, Moonshot AI a publié Kimi K2.6, un modèle open source à mille milliards de paramètres qui détrône l'ensemble des laboratoires frontières sur Humanity's Last Exam avec outils et devance de peu GPT-5.4 sur SWE-Bench Pro. Annoncé le 20 avril 2026, le modèle est distribué sous licence MIT modifiée et immédiatement disponible sur Kimi.com, l'application Kimi, l'API officielle et la CLI Kimi Code — réduisant à quelques points l'écart entre les modèles chinois open source et les systèmes occidentaux propriétaires.

Points clés

58.6 sur SWE-Bench Pro, devant GPT-5.4 (57.7), Claude Opus 4.6 (53.4) et Gemini 3.1 Pro (54.2)
54.0 sur HLE-Full avec outils — le meilleur score parmi tous les modèles frontières évalués
Les Agent Swarms atteignent 300 sous-agents exécutant 4 000 étapes coordonnées, contre 100 et 1 500 pour K2.5
Fenêtre de contexte de 256 000 jetons, 1 000 milliards de paramètres au total dont 32 milliards activés par jeton via un MoE à 384 experts
Poids ouverts sur Hugging Face sous licence MIT modifiée autorisant l'usage commercial

Performances sur les benchmarks

Kimi K2.6 affiche les meilleurs chiffres jamais atteints par un modèle open source sur les charges de travail d'agents de codage. Il obtient 80.2 sur SWE-Bench Verified, 76.7 sur SWE-bench Multilingual et 89.6 sur LiveCodeBench v6, dépassant Claude Opus 4.6 et ses 88.8. Terminal-Bench 2.0 culmine à 66.7 et BrowseComp à 86.3, deux bonds considérables par rapport à la référence K2.5 publiée plus tôt cette année.

Le résultat phare concerne Humanity's Last Exam avec outils, où K2.6 prend la tête à 54.0 face à GPT-5.4 (52.1), Claude Opus 4.6 (53.0) et Gemini 3.1 Pro (51.4). Sur SWE-Bench Pro, un benchmark conçu pour résister à la contamination, K2.6 se retrouve à un seul point de Claude Opus 4.7 — la meilleure approche jamais réalisée par un modèle open source face au dernier modèle d'Anthropic.

Architecture et spécifications techniques

En interne, K2.6 est un modèle Mixture-of-Experts clairsemé avec 384 experts — huit sélectionnés par jeton plus un expert partagé — activant 32 milliards de paramètres sur mille milliards au total. L'architecture compte 61 couches, une dimension cachée d'attention de 7 168 et 64 têtes d'attention. La compréhension multimodale native est assurée par MoonViT, un encodeur visuel de 400 millions de paramètres fusionné directement dans le modèle plutôt que greffé a posteriori.

La fenêtre de contexte de 256 000 jetons prend en charge les longues exécutions d'agents, et Moonshot recommande un déploiement via vLLM, SGLang ou KTransformers avec transformers 4.57.1 ou version ultérieure. Deux modes opérationnels sont proposés dès le lancement : le mode Thinking pour le raisonnement étendu et le mode Instant pour les réponses à faible latence.

Essaims d'agents et tâches longues

Le pari architectural le plus marquant porte sur le passage à l'échelle agentique. K2.6 embarque des Agent Swarms capables d'exécuter 300 sous-agents en parallèle sur 4 000 étapes coordonnées — soit un triplement du nombre de sous-agents et un doublement du budget d'étapes par rapport à K2.5. Moonshot introduit également les Claw Groups pour la coordination d'agents hétérogènes, permettant à K2.6 d'orchestrer des agents tiers aux côtés des siens.

Dans les démonstrations officielles, K2.6 a optimisé de manière autonome un moteur de correspondance financier au cours d'une exécution ininterrompue de 13 heures, livrant une amélioration de débit de 185 pour cent. Un autre scénario a montré le modèle tournant cinq jours de suite sur des tâches de gestion d'infrastructure. K2.6 peut aussi ingérer des PDF, tableurs et présentations pour les transformer en « Skills » réutilisables, une capacité qui fait écho au standard de skills qui s'impose dans l'écosystème des agents de codage.

Impact sur la course aux modèles ouverts

L'annonce tombe à un moment charnière pour l'IA open source. DeepSeek devrait publier V4 dans les prochaines semaines, tandis que Qwen d'Alibaba et GLM-5 de Zhipu continuent de combler l'écart avec les laboratoires frontières occidentaux. Kimi K2.6 est désormais probablement le modèle d'agents de codage open source le plus puissant disponible, et sa licence MIT modifiée permet aux développeurs, startups et entreprises de le déployer sans verrouillage par un fournisseur.

Pour les équipes sensibles au coût, l'abonnement Kimi Code propose le modèle hébergé à 39 yuans par mois — soit environ le quart des offres comparables de Claude ou GPT-5 pour le codage. Combiné à l'intégration avec Cursor, Cline, OpenClaw et d'autres frameworks d'agents, l'argument économique en faveur des agents de codage open source devient difficile à ignorer.

La suite

Moonshot a laissé entendre que K2.6 est la base d'une plateforme d'agents plus large, et non une version ponctuelle. On peut s'attendre à des démonstrations d'exécutions autonomes de plus en plus longues, à des intégrations Claw Groups plus profondes et à un catalogue croissant de Skills partageables. Pour les DSI et les responsables d'ingénierie de la région MENA, le message est limpide : le coût d'exécuter un agent de codage quasi frontière sur sa propre infrastructure vient de baisser une nouvelle fois cette semaine.

Source : MarkTechPost

Points clés

58.6 sur SWE-Bench Pro, devant GPT-5.4 (57.7), Claude Opus 4.6 (53.4) et Gemini 3.1 Pro (54.2)
54.0 sur HLE-Full avec outils — le meilleur score parmi tous les modèles frontières évalués
Les Agent Swarms atteignent 300 sous-agents exécutant 4 000 étapes coordonnées, contre 100 et 1 500 pour K2.5
Fenêtre de contexte de 256 000 jetons, 1 000 milliards de paramètres au total dont 32 milliards activés par jeton via un MoE à 384 experts
Poids ouverts sur Hugging Face sous licence MIT modifiée autorisant l'usage commercial