Noqta
  • Accueil
  • Services
  • À propos
  • Écrits
  • Se connecter
écrits/news/2026/04
● News21 avr. 2026·6 min

Moonshot AI lance Kimi K2.6 : un modèle open source qui dépasse Claude Opus 4.6 sur SWE-Bench et orchestre 300 agents en parallèle

Le laboratoire chinois Moonshot AI a publié Kimi K2.6, un modèle open source de mille milliards de paramètres en architecture Mixture-of-Experts qui atteint 58.6 sur SWE-Bench Pro — devançant GPT-5.4 et Claude Opus 4.6 — et pilote jusqu'à 300 sous-agents sur 4 000 étapes coordonnées. Les poids sont publiés sur Hugging Face sous licence MIT modifiée.

Équipe Noqta
Équipe Noqta
Author
·EN · FR · AR

Basée à Pékin, Moonshot AI a publié Kimi K2.6, un modèle open source à mille milliards de paramètres qui détrône l'ensemble des laboratoires frontières sur Humanity's Last Exam avec outils et devance de peu GPT-5.4 sur SWE-Bench Pro. Annoncé le 20 avril 2026, le modèle est distribué sous licence MIT modifiée et immédiatement disponible sur Kimi.com, l'application Kimi, l'API officielle et la CLI Kimi Code — réduisant à quelques points l'écart entre les modèles chinois open source et les systèmes occidentaux propriétaires.

Points clés

  • 58.6 sur SWE-Bench Pro, devant GPT-5.4 (57.7), Claude Opus 4.6 (53.4) et Gemini 3.1 Pro (54.2)
  • 54.0 sur HLE-Full avec outils — le meilleur score parmi tous les modèles frontières évalués
  • Les Agent Swarms atteignent 300 sous-agents exécutant 4 000 étapes coordonnées, contre 100 et 1 500 pour K2.5
  • Fenêtre de contexte de 256 000 jetons, 1 000 milliards de paramètres au total dont 32 milliards activés par jeton via un MoE à 384 experts
  • Poids ouverts sur Hugging Face sous licence MIT modifiée autorisant l'usage commercial

Performances sur les benchmarks

Kimi K2.6 affiche les meilleurs chiffres jamais atteints par un modèle open source sur les charges de travail d'agents de codage. Il obtient 80.2 sur SWE-Bench Verified, 76.7 sur SWE-bench Multilingual et 89.6 sur LiveCodeBench v6, dépassant Claude Opus 4.6 et ses 88.8. Terminal-Bench 2.0 culmine à 66.7 et BrowseComp à 86.3, deux bonds considérables par rapport à la référence K2.5 publiée plus tôt cette année.

Le résultat phare concerne Humanity's Last Exam avec outils, où K2.6 prend la tête à 54.0 face à GPT-5.4 (52.1), Claude Opus 4.6 (53.0) et Gemini 3.1 Pro (51.4). Sur SWE-Bench Pro, un benchmark conçu pour résister à la contamination, K2.6 se retrouve à un seul point de Claude Opus 4.7 — la meilleure approche jamais réalisée par un modèle open source face au dernier modèle d'Anthropic.

Architecture et spécifications techniques

En interne, K2.6 est un modèle Mixture-of-Experts clairsemé avec 384 experts — huit sélectionnés par jeton plus un expert partagé — activant 32 milliards de paramètres sur mille milliards au total. L'architecture compte 61 couches, une dimension cachée d'attention de 7 168 et 64 têtes d'attention. La compréhension multimodale native est assurée par MoonViT, un encodeur visuel de 400 millions de paramètres fusionné directement dans le modèle plutôt que greffé a posteriori.

La fenêtre de contexte de 256 000 jetons prend en charge les longues exécutions d'agents, et Moonshot recommande un déploiement via vLLM, SGLang ou KTransformers avec transformers 4.57.1 ou version ultérieure. Deux modes opérationnels sont proposés dès le lancement : le mode Thinking pour le raisonnement étendu et le mode Instant pour les réponses à faible latence.

Essaims d'agents et tâches longues

Le pari architectural le plus marquant porte sur le passage à l'échelle agentique. K2.6 embarque des Agent Swarms capables d'exécuter 300 sous-agents en parallèle sur 4 000 étapes coordonnées — soit un triplement du nombre de sous-agents et un doublement du budget d'étapes par rapport à K2.5. Moonshot introduit également les Claw Groups pour la coordination d'agents hétérogènes, permettant à K2.6 d'orchestrer des agents tiers aux côtés des siens.

Dans les démonstrations officielles, K2.6 a optimisé de manière autonome un moteur de correspondance financier au cours d'une exécution ininterrompue de 13 heures, livrant une amélioration de débit de 185 pour cent. Un autre scénario a montré le modèle tournant cinq jours de suite sur des tâches de gestion d'infrastructure. K2.6 peut aussi ingérer des PDF, tableurs et présentations pour les transformer en « Skills » réutilisables, une capacité qui fait écho au standard de skills qui s'impose dans l'écosystème des agents de codage.

Impact sur la course aux modèles ouverts

L'annonce tombe à un moment charnière pour l'IA open source. DeepSeek devrait publier V4 dans les prochaines semaines, tandis que Qwen d'Alibaba et GLM-5 de Zhipu continuent de combler l'écart avec les laboratoires frontières occidentaux. Kimi K2.6 est désormais probablement le modèle d'agents de codage open source le plus puissant disponible, et sa licence MIT modifiée permet aux développeurs, startups et entreprises de le déployer sans verrouillage par un fournisseur.

Pour les équipes sensibles au coût, l'abonnement Kimi Code propose le modèle hébergé à 39 yuans par mois — soit environ le quart des offres comparables de Claude ou GPT-5 pour le codage. Combiné à l'intégration avec Cursor, Cline, OpenClaw et d'autres frameworks d'agents, l'argument économique en faveur des agents de codage open source devient difficile à ignorer.

La suite

Moonshot a laissé entendre que K2.6 est la base d'une plateforme d'agents plus large, et non une version ponctuelle. On peut s'attendre à des démonstrations d'exécutions autonomes de plus en plus longues, à des intégrations Claw Groups plus profondes et à un catalogue croissant de Skills partageables. Pour les DSI et les responsables d'ingénierie de la région MENA, le message est limpide : le coût d'exécuter un agent de codage quasi frontière sur sa propre infrastructure vient de baisser une nouvelle fois cette semaine.


Source : MarkTechPost

● Tags
#IA#Open Source#Apprentissage automatique#Chine
● Partage
● Une question ?

Discutez de cet article avec un agent Noqta.

Équipe Noqta
Équipe Noqta
Author · noqta
Suivre ↗

● À lire ensuite

OpenAI dévoile GPT-5.3-Codex : le premier modèle d'IA ayant contribué à sa propre création
● News

OpenAI dévoile GPT-5.3-Codex : le premier modèle d'IA ayant contribué à sa propre création

8 févr. 2026
La Tunisie Célèbre le Huitième Anniversaire du Startup Act : Plus de 1 450 Startups Labellisées
● News

La Tunisie Célèbre le Huitième Anniversaire du Startup Act : Plus de 1 450 Startups Labellisées

18 janv. 2026
Anthropic lance Claude Code Routines : des automatisations cloud pour les développeurs
● News

Anthropic lance Claude Code Routines : des automatisations cloud pour les développeurs

17 avr. 2026
Noqta
Conditions générales · Politique de Confidentialité
Services
  • Automatisation IA
  • Agents IA
  • Automatisation CX
  • Vibe Coding
  • Gestion de Projet
  • Assurance Qualité
  • Développement Web
  • Intégration API
  • Applications Métier
  • Maintenance
  • Low-Code/No-Code
Liens
  • À propos de nous
  • Comment ça marche?
  • Actualités
  • Tutoriels
  • Blog
  • Contact
  • FAQ
  • Ressources
Régions
  • Arabie Saoudite
  • Émirats Arabes Unis
  • Qatar
  • Bahreïn
  • Oman
  • Libye
  • Tunisie
  • Algérie
  • Maroc
Entreprise
  • Noqta, Tunisie, Tunis, téléphone +216 40 385 594
© Noqta. Tous droits réservés.