Inception Labs lance Mercury 2 : le LLM de raisonnement le plus rapide, basé sur une architecture de diffusion

Inception Labs a lancé Mercury 2, le premier modèle linguistique de raisonnement au monde construit sur une architecture de diffusion, affirmant qu'il est plus de cinq fois plus rapide que les LLM de pointe optimisés pour la vitesse, tout en coûtant considérablement moins cher à exploiter.

Points clés

Mercury 2 atteint un débit de 1 009 tokens par seconde en sortie, contre 89 tokens/s pour Claude 4.5 Haiku et 71 tokens/s pour GPT-5 Mini
Une latence de bout en bout de seulement 1,7 seconde, contre 14,4 secondes pour Gemini 3 Flash et 23,4 secondes pour Claude Haiku 4.5 avec raisonnement
Des tarifs à partir de 0,25 $ par million de tokens en entrée et 0,75 $ par million de tokens en sortie — jusqu'à 75 % moins cher que les concurrents

Une nouvelle architecture pour les modèles linguistiques

Contrairement aux LLM autorégressifs traditionnels qui génèrent le texte token par token, Mercury 2 utilise une approche basée sur la diffusion qui affine plusieurs blocs de texte simultanément. Le concept est similaire au fonctionnement des modèles de diffusion d'images : au lieu d'écrire mot par mot, le modèle fonctionne comme un éditeur qui révise un brouillon entier d'un seul coup.

Fondée par des professeurs de Stanford, Cornell et UCLA, pionniers de la recherche fondamentale sur la diffusion, Inception Labs a réussi à commercialiser cette architecture pour la génération de texte. Mercury 2 étend leurs travaux antérieurs au raisonnement de qualité production.

Performance sur les benchmarks

Sur les benchmarks de raisonnement standard, Mercury 2 affiche des résultats compétitifs :

AIME (Mathématiques) : 91 — surpassant Gemini 3 Flash (78) et Claude 4.5 Haiku (84)
GPQA Diamond (Sciences) : 74
LCB (Code) : 67
SciCode : 38

Bien que Mercury 2 n'atteigne pas encore les modèles de pointe comme Claude 4.6 ou GPT-5.3 sur tous les benchmarks, il redéfinit les compromis prix-performance et latence-qualité dans l'inférence IA.

Spécifications techniques

Mercury 2 prend en charge une fenêtre de contexte de 128K tokens, l'utilisation d'outils et la sortie JSON. Le modèle est disponible via une API compatible OpenAI, facilitant l'intégration pour les développeurs travaillant déjà avec les chaînes d'outils LLM existantes.

Impact sur le secteur

Les implications sont significatives pour les applications d'IA en temps réel. Les boucles d'agents, les interfaces vocales, les systèmes de recherche et les assistants de programmation bénéficient tous d'une inférence plus rapide. Aux tarifs actuels, Mercury 2 pourrait permettre des cas d'utilisation qui étaient auparavant trop coûteux ou trop lents pour être déployés à grande échelle.

Andrej Karpathy, ancien chercheur chez OpenAI et directeur de l'IA chez Tesla, figure parmi les investisseurs d'Inception Labs — un signe que l'approche par diffusion de la modélisation linguistique gagne en crédibilité sérieuse dans la communauté de recherche en IA.

Et maintenant ?

Mercury 2 est disponible dès aujourd'hui via l'API Inception. Si les modèles basés sur la diffusion continuent de combler l'écart de qualité avec les modèles autorégressifs de pointe, ils pourraient fondamentalement remodeler l'économie du déploiement des grands modèles linguistiques.

Source : Business Wire