Cohere Command A+ : le LLM open source pour l'IA souveraine

Le 20 mai 2026, Cohere a publié Command A+, son modèle le plus puissant à ce jour et le premier à être livré sous une licence Apache 2.0 complète. Pour les équipes en MENA et en Europe qui ont besoin d'une IA de pointe sans envoyer leurs données chez un hyperscaler, c'est la sortie open source la plus marquante du trimestre. Ce guide passe en revue l'architecture, les benchmarks et la mise en production concrète.

Ce qu'est réellement Command A+

Command A+ est un modèle Mixture-of-Experts (MoE) parcimonieux de type décodeur, comptant 218 milliards de paramètres au total et 25 milliards de paramètres actifs par token. Il s'appuie sur 128 experts, dont 8 sont routés par token, plus un expert partagé activé pour tous les tokens. Le choix architectural est délibéré : un modèle dense de cette taille serait inexploitable en production, mais le routage MoE conserve une densité d'inférence élevée tout en gardant une grande capacité paramétrique.

Les chiffres clés à retenir :

Contexte d'entrée de 128 K tokens, génération jusqu'à 64 K
48 langues supportées, contre 23 dans la génération précédente
Quantization W4A4 — tourne sur 2 H100 ou un seul B200
Licence Apache 2.0 — usage commercial, modification et redistribution autorisés
Support vLLM dès le jour J pour l'inférence à grande échelle

Cohere positionne le modèle autour du concept d'« IA souveraine » : la capacité pour les gouvernements, banques, opérateurs télécoms et entreprises régulées de déployer des capacités de pointe sur une infrastructure qu'ils contrôlent. La licence et la faible empreinte matérielle rendent cette promesse concrète plutôt qu'aspirationnelle.

Le tableau des benchmarks

Cohere a publié des bonds nets sur plusieurs charges agentiques et de raisonnement par rapport à la génération précédente :

Benchmark	Command A+	Command A précédent
Terminal-Bench Hard (codage agentique)	25 %	3 %
τ²-Bench (raisonnement télécom)	85 %	37 %
MMMU (multimodal)	75,1 %	—
MMMU Pro	63 %	—
MathVista (raisonnement mathématique)	80,6 %	—

Le modèle obtient également 37 sur l'Artificial Analysis Intelligence Index, ce qui le place dans la même conversation que les meilleurs modèles propriétaires sur de nombreuses tâches d'entreprise.

La nuance honnête : des observateurs indépendants ont noté dès le jour de sortie que Command A+ ne bat pas Qwen 3.6 sur tous les benchmarks communs, alors qu'il active environ huit fois plus de paramètres par token. L'histoire ici n'est pas la suprématie brute sur les classements. C'est la combinaison d'une licence permissive, du multilingue natif, des citations intégrées et d'une faible empreinte de déploiement dans un seul package.

Pourquoi le volet arabe et multilingue compte

C'est la partie que la plupart des couvertures sous-estimeront. Cohere annonce des gains d'efficacité de tokenisation de 20 % pour l'arabe, 16 % pour le coréen et 18 % pour le japonais. Traduction : le même paragraphe arabe consomme environ un cinquième de tokens en moins qu'à la génération précédente, ce qui réduit directement le coût et la latence de l'inférence pour les charges arabes.

Pour une fintech tunisienne, un portail gouvernemental saoudien ou une équipe legal-tech émiratie, ce gain se cumule sur des millions de requêtes. Combiné au déploiement on-premise, on obtient une réponse crédible à deux questions récurrentes des DSI régionaux :

Peut-on garder du contenu arabe régulé dans notre propre datacenter ? Oui.
L'inférence en arabe restera-t-elle économiquement viable à grande échelle ? Oui, davantage qu'auparavant.

Démarrer

Le modèle est disponible de trois manières :

1. Poids ouverts sur Hugging Face. Téléchargez CohereLabs/command-a-plus-05-2026-w4a4 pour la version quantisée, ou les variantes BF16/FP8 pour un service plus précis. Apache 2.0 signifie aucune danse de licence supplémentaire.

2. Inférence managée via Cohere Model Vault. Si vous voulez le modèle sans le fardeau opérationnel.

3. API Cohere. Appelez le endpoint chat standard avec le nouvel identifiant command-a-plus-05-2026.

Une commande vLLM minimale pour la version W4A4 ressemble à ceci :

vllm serve CohereLabs/command-a-plus-05-2026-w4a4 \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --quantization compressed-tensors \
  --enable-auto-tool-choice \
  --tool-call-parser cohere

Et un appel Python une fois le serveur lancé :

from openai import OpenAI
 
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY",
)
 
response = client.chat.completions.create(
    model="CohereLabs/command-a-plus-05-2026-w4a4",
    messages=[
        {"role": "system", "content": "Réponds en citant les sources fournies."},
        {"role": "user", "content": "Résume les amendements PDPL 2026 en deux phrases."},
    ],
    temperature=0.3,
)
 
print(response.choices[0].message.content)

Le modèle est compatible avec l'API OpenAI via vLLM, donc la plupart du code client existant fonctionne sans modification.

Citations natives et RAG

Command A+ embarque un mode citations structuré qui émet les passages sources à côté du texte généré. Pour les pipelines de génération augmentée par récupération qui doivent montrer à l'utilisateur d'où vient une réponse — bases de connaissances internes, recherche juridique, Q&R de conformité — cela supprime une couche d'ingénierie de prompt fragile que la plupart des équipes maintiennent encore à la main.

Le schéma est direct : passez vos chunks récupérés en entrée, et le modèle renvoie la réponse avec des références inline vers les ids des chunks réellement utilisés. Les pistes d'audit deviennent un livrable de première classe plutôt qu'une réflexion après coup.

Quand choisir Command A+

C'est le bon choix quand vous avez besoin de :

Déploiement on-premise ou VPC uniquement pour des raisons réglementaires
Inférence forte en arabe, japonais ou coréen sans payer la taxe de tokens
Citations natives dans les systèmes RAG où l'attribution de source n'est pas négociable
Liberté Apache 2.0 pour forker, fine-tuner et redistribuer

Ce n'est pas le bon choix si la victoire brute sur les benchmarks de code ou de raisonnement est le seul critère — Qwen 3.6, DeepSeek et les modèles propriétaires d'OpenAI, Anthropic et Google s'échangent encore les coups sur les classements individuels. Choisissez l'outil qui correspond à la contrainte qui vous lie réellement.

Ce que cela signifie pour les équipes tech MENA

Trois enseignements pour les équipes qui livrent en Tunisie, dans le CCG et la région élargie :

L'IA souveraine est désormais constructible, pas seulement aspirationnelle. Deux H100 dans un datacenter à Tunis, c'est un budget atteignable. Tout comme la clarté juridique d'Apache 2.0.
Les produits en arabe sont devenus moins chers du jour au lendemain. Le gain de 20 % d'efficacité de tokens est un vrai levier économique.
La stratégie de Cohere se différencie sur le déploiement, pas sur les benchmarks. C'est un signal utile pour positionner vos propres produits IA : sur les marchés régulés, la posture de déploiement prime sur le rang du classement.

Si vous évaluez l'infrastructure LLM pour une charge MENA régulée, Command A+ mérite une place sur la shortlist à côté de n'importe quel modèle propriétaire que vous utilisez déjà. La vraie question n'est pas s'il gagne tous les benchmarks. C'est s'il supprime des contraintes — légales, géographiques, économiques — que votre stack actuelle vous impose encore.

Envie d'échanger sur un déploiement LLM pour votre équipe ? Contactez-nous — nous accompagnons les organisations en MENA dans l'évaluation et le déploiement d'IA d'entreprise.