Nous Research lance Mixture of Agents 2.0 dans Hermes — combinez plusieurs fournisseurs en un seul modèle virtuel

Nous Research a déployé Mixture of Agents 2.0 pour Hermes Agent, transformant l'orchestration multi-modèles en une primitive de premier ordre. Le cofondateur et ingénieur principal Teknium a annoncé la fonctionnalité le 26 juin 2026, la décrivant comme un moyen de "combiner les modèles de n'importe quel fournisseur dans un mélange personnalisé" et d'accéder au préréglage résultant "comme s'il s'agissait d'un modèle ordinaire dans Hermes".

La mise à jour arrive seulement une semaine après Hermes Agent v0.17.0 — "The Reach Release" — et renforce la position du projet comme l'agent open source le plus utilisé sur OpenRouter, avec plus de 140 000 étoiles GitHub accumulées depuis ses débuts en février 2026.

Points clés

Les préréglages Mixture of Agents sont désormais exposés comme des modèles virtuels au sein de Hermes — il suffit d'en choisir un dans le sélecteur de modèles et il se comporte comme n'importe quel LLM.
Chaque préréglage exécute plusieurs modèles de pointe en parallèle sur la même requête, puis synthétise les réponses à travers un modèle agrégateur.
Les benchmarks de Nous Research revendiquent des scores supérieurs de 8 pour cent à Claude Opus 4.8 et de 11 pour cent à GPT-5.5 sur l'évaluation HermesBench à venir.
N'importe quel fournisseur peut être intégré : Anthropic, OpenAI, xAI Grok, inférence locale, OpenRouter — le même préréglage peut mélanger des modèles de pointe hébergés avec des runtimes embarqués.
Publié au-dessus de Hermes Agent v0.17.0 (19 juin 2026), qui ajoutait déjà les sous-agents en arrière-plan, les plans d'automatisation et l'intégration iMessage via Photon Spectrum.

Détails

Mixture of Agents n'est pas une idée nouvelle sur le plan académique, mais Hermes 2.0 est l'un des premiers frameworks d'agents à l'exposer comme un modèle prêt à l'emploi plutôt que comme un pipeline au niveau du code. Un préréglage est une configuration sauvegardée comprenant deux modèles sous-jacents ou plus, accompagnés d'un agrégateur. Une fois défini, il apparaît aux côtés de Claude, GPT, Grok, Gemini et des points de terminaison auto-hébergés dans le sélecteur de modèles standard — et toute fonctionnalité Hermes qui consomme un modèle (chat, sous-agents, plans d'automatisation, compétences) peut le cibler de manière transparente.

En coulisses, Hermes diffuse la requête vers chaque modèle du préréglage, collecte les réponses et demande à l'agrégateur de composer une réponse unique. L'annonce de Teknium a spécifiquement mis en avant une configuration mélangeant Claude Opus 4.8 avec GPT-5.5 comme source des gains de benchmark annoncés.

Les chiffres proviennent de HermesBench, une évaluation interne que Nous Research décrit comme "sur le point d'être publiée". Cette précaution importe : au lancement, il n'existe aucun benchmark indépendant comparant les préréglages MoA 2.0 aux modèles individuels sous-jacents, et la méthodologie de HermesBench n'a pas été publiée.

Impact

La sortie intervient au cœur d'un débat vif sur l'accès aux modèles de pointe. Plus tôt ce mois-ci, le gouvernement américain a restreint la disponibilité mondiale d'Anthropic Fable 5 et de Mythos dans le cadre des contrôles à l'exportation, et il a été demandé à OpenAI d'échelonner la sortie de GPT-5.6 client par client à environ 20 partenaires validés par le gouvernement. Plusieurs commentateurs ont présenté Mixture of Agents 2.0 comme un contournement pratique : les développeurs disposant d'un accès API légitime à deux ou trois fournisseurs de pointe peuvent composer leur propre "frontière synthétique" sans attendre qu'un laboratoire les débloque.

Pour les équipes de développement, le motif d'orchestration des modèles a des conséquences plus immédiates que la géopolitique. Traiter un ensemble multi-modèles comme un seul point de terminaison signifie que le code d'application existant n'a pas à changer. Le même modèle de prompt, la même politique de réessai et la même définition d'outil qui fonctionnaient avec Opus peuvent être pointés vers un préréglage pour produire de meilleurs résultats — au prix d'une latence plus élevée, d'un coût par appel plus élevé (chaque modèle du préréglage est payé en totalité) et de modes de défaillance supplémentaires lorsqu'un fournisseur limite le débit ou retourne une sortie malformée.

La liberté de mélanger modèles hébergés et locaux constitue le changement structurel le plus intéressant. Un préréglage peut associer un modèle de pointe hébergé pour le raisonnement à une petite variante embarquée de Qwen, Mistral ou Llama pour l'extraction de données sensibles. L'optimisation récente de NVIDIA pour Hermes sur les PC RTX et les DGX Spark — ce dernier exécutant des modèles de 120 milliards de paramètres dans 128 Go de mémoire unifiée — donne à cette configuration une histoire matérielle crédible pour les équipes qui souhaitent qu'une partie de la charge reste sur leurs propres machines.

Contexte

Hermes Agent a été lancé en février 2026 comme un agent autonome open source construit par Nous Research, le laboratoire à l'origine de la longue série de fine-tunes Hermes. Il a franchi 140 000 étoiles GitHub en trois mois et a dépassé les agents généralistes antérieurs en utilisation sur OpenRouter. La plateforme livre désormais des applications de bureau natives pour macOS, Linux et Windows, un tableau de bord d'administration basé sur navigateur, une mémoire persistante, la planification, l'exécution de code en bac à sable et des adaptateurs pour dix-sept plateformes de messagerie dont WhatsApp Business Cloud, Slack et iMessage.

Mixture of Agents lui-même est apparu dans les versions antérieures de Hermes comme un pipeline configurable. La version 2.0 reformule le même concept comme un modèle virtuel — un changement de packaging qui abaisse matériellement le coût d'intégration. Le motif agrégateur-et-ensemble fait écho à la recherche publiée sur les systèmes multi-LLM, mais l'opérationnalise au sein d'un outil que des milliers de développeurs exécutent déjà quotidiennement.

La suite

HermesBench est ce qu'il faut surveiller dans l'immédiat. Tant que Nous Research n'aura pas publié la méthodologie et que les chiffres comparatifs n'auront pas été reproduits par un tiers, le titre "8 pour cent au-dessus d'Opus 4.8" doit être traité comme une donnée fournie par le vendeur. La prochaine version mineure de Hermes Agent inclura probablement des modèles de préréglages contribués par la communauté, et Teknium a signalé que la personnalisation du modèle agrégateur — laisser les utilisateurs y insérer leur propre synthétiseur — figure dans la feuille de route à court terme.

Pour les équipes de la région MENA qui évaluent leurs obligations au titre des lois sur la protection des données personnelles, Mixture of Agents 2.0 mérite un examen attentif précisément parce que la même primitive qui mélange Anthropic et OpenAI peut mélanger un fournisseur hébergé avec un modèle local. Router la partie sensible d'une requête à travers un agrégateur embarqué tout en laissant le raisonnement lourd se faire dans le cloud devient un changement de configuration, et non une intégration personnalisée. Cette flexibilité — plus que le titre des benchmarks — est ce qui rend cette version pertinente au-delà du cercle des frameworks d'agents.

Source : Nous Research — Hermes Agent