Cohere ouvre le code de North Mini Code, un modèle de codage agentique qui tourne sur un seul H100

Cohere a lancé North Mini Code le 9 juin 2026, son premier modèle de codage open source et le membre inaugural d'une nouvelle génération de modèles que l'entreprise présente comme optimisés spécifiquement pour l'ingénierie logicielle. Ce modèle de type mixture-of-experts (MoE) est distribué sous la licence permissive Apache 2.0 et conçu pour exécuter des flux de codage agentique sur un seul GPU H100, ce qui en fait une option remarquable pour les équipes souhaitant garder leur code et leur infrastructure d'IA sur site.

Le lancement est survenu au cœur d'une semaine chargée pour l'IA de pointe, mais North Mini Code adopte un positionnement différent : plutôt que de courir après le plus grand modèle managé, Cohere vise les développeurs qui ont besoin de souveraineté et de flexibilité sur leur pile de codage agentique.

Points clés

30 milliards de paramètres totaux, 3 milliards actifs — une architecture mixture-of-experts clairsemée qui maintient un coût d'inférence faible tout en préservant la capacité.
Licence Apache 2.0 — les poids sont librement téléchargeables et utilisables dans des produits commerciaux sans restriction.
Fenêtre de contexte de 256K tokens avec une longueur de génération maximale de 64K tokens.
Fonctionne sur un seul GPU H100 en précision FP8 — sans grappe de GPU nécessaire.
Conçu pour l'ingénierie logicielle agentique, incluant l'orchestration de sous-agents, la cartographie d'architecture, la revue de code et le travail en terminal.

Détails

North Mini Code est conçu pour les flux agentiques plutôt que pour des complétions en une seule passe. Selon Cohere, le modèle peut comprendre et orchestrer des sous-agents, cartographier l'architecture des systèmes à travers une base de code, mener des revues de code et opérer dans le terminal — ce comportement multi-étapes dont dépendent les agents de codage modernes.

Sur l'Artificial Analysis Coding Index, North Mini Code obtient 33.4, se plaçant nettement au-dessus de GLM-4.7-Flash à 25.9 et juste en dessous de Qwen3.6 35B A3B à 35.2. Sur l'indice d'intelligence plus large, il atteint 27.6, dépassant gpt-oss-20B à 24.5 et restant juste sous Mistral Small 4 à 27.8. Le modèle est rapide pour sa catégorie : Cohere rapporte environ 199 tokens de sortie par seconde sur sa propre API, avec un débit jusqu'à 2,8 fois supérieur et un avantage de 30% sur la latence inter-token face à Devstral Small 2.

La contrepartie est la spécialisation. Les évaluations indépendantes notent que North Mini Code est moins performant sur les tâches agentiques non liées au code, n'obtenant que 14% sur GDPval-AA et 37% sur l'évaluation τ²-Bench Telecom, pour un indice agentique global de 21.7. Autrement dit, il s'agit d'un modèle réglé pour le code, et non d'un système de raisonnement généraliste.

Impact

Ce lancement compte surtout pour les organisations qui ne peuvent — ou ne veulent — pas envoyer leur code source vers une API tierce. Un modèle qui tient sur un seul H100 et porte une licence Apache 2.0 est tout à fait à la portée d'un centre de données d'entreprise, d'un fournisseur cloud régional ou d'un laboratoire de recherche — et il élimine la facturation au token qui rend le codage agentique à grande échelle coûteux sur les plateformes managées.

Pour la région MENA en particulier, où la résidence des données et la souveraineté numérique deviennent centrales dans les achats publics et privés, un modèle de codage à poids ouverts auto-hébergeable sur une infrastructure locale constitue une brique de construction significative. Les équipes peuvent exécuter revue de code, refactorisation et développement agentique entièrement à l'intérieur de leur périmètre, à coût nul par token et avec un contrôle total sur l'emplacement des données.

Contexte

North Mini Code marque un tournant pour Cohere, qui a bâti sa réputation sur la recherche d'information en entreprise et la famille de modèles de langage Command. Le cofondateur Nick Frosst a annoncé le lancement comme le premier d'une nouvelle génération de modèles destinés aux développeurs, signalant que Cohere entend rivaliser directement dans l'espace des modèles de codage à poids ouverts, aux côtés de Qwen Coder, Devstral et GLM.

Le modèle est disponible dès maintenant sur Hugging Face, via la plateforme d'agents OpenCode, sur OpenRouter, ainsi que via le Model Vault et l'API de Cohere, où un essai gratuit est proposé.

Et ensuite

Le « Mini » du nom suggère que des membres plus grands de cette génération axée sur le codage devraient suivre. La question ouverte est de savoir si Cohere parviendra à élargir la couverture agentique — notamment sur les tâches non liées au code — sans renoncer à l'efficacité qui rend North Mini Code attractif. Pour l'instant, les développeurs disposent d'un modèle de codage rapide, sous licence permissive et auto-hébergeable, qui tient sur du matériel que beaucoup d'équipes possèdent déjà.

Source : Cohere