Nvidia dévoile Vera Rubin : le supercalculateur IA nouvelle génération, 10 fois plus efficace que Blackwell

Nvidia a officiellement dévoilé sa plateforme de calcul IA de nouvelle génération, Vera Rubin, marquant un bond considérable en termes de performance et d'efficacité énergétique. Le PDG Jensen Huang a confirmé que le système est désormais en production complète et sera livré aux partenaires au second semestre 2026.

Points clés

Coût par token d'inférence réduit de 10x par rapport à Blackwell
4x moins de GPU nécessaires pour entraîner des modèles à mélange d'experts (MoE)
72 GPU Rubin et 36 CPU Vera dans un seul rack NVL72
260 To/s de bande passante totale via l'interconnexion NVLink 6
20,7 To de mémoire HBM4 et 54 To de LPDDR5x

Six puces, une seule plateforme

La plateforme Rubin repose sur six nouvelles puces fonctionnant de concert. Au cœur du système se trouve le GPU Rubin avec un moteur Transformer de troisième génération et une compression adaptative, délivrant 50 pétaflops de calcul NVFP4 pour l'inférence IA. Il est associé au CPU Vera, doté de 88 cœurs Olympus personnalisés basés sur l'architecture Armv9.2.

Les quatre puces restantes gèrent la connectivité et l'infrastructure : le commutateur NVLink 6 pour l'interconnexion de sixième génération avec calcul intégré au réseau, la carte ConnectX-9 SuperNIC pour le réseau avancé, le processeur BlueField-4 DPU optimisé pour les charges de travail d'IA agentique, et le commutateur Spectrum-6 Ethernet pour les réseaux des usines IA.

Le rack NVL72

La configuration phare, Vera Rubin NVL72, intègre 1,3 million de composants dans un seul rack. Elle offre 3,6 exaflops d'inférence NVFP4 et 2,5 exaflops de calcul d'entraînement. Un design sans câbles rend l'assemblage et la maintenance 18 fois plus rapides que les systèmes Blackwell.

Nvidia a également présenté Spectrum-X Photonics, offrant une efficacité énergétique 5 fois supérieure et une fiabilité 10 fois plus grande pour les réseaux de centres de données. La plateforme intègre la troisième génération de Confidential Computing — la première implémentation à l'échelle du rack.

Écosystème et disponibilité

Les principaux fournisseurs cloud, dont AWS, Google Cloud, Microsoft Azure, Oracle Cloud, CoreWeave et Lambda, figurent parmi les premiers à déployer Vera Rubin. Des laboratoires d'IA tels qu'OpenAI, Anthropic, xAI, Mistral, Cohere et Perplexity se sont engagés sur la plateforme.

Les partenaires matériels Dell, HPE, Lenovo, Supermicro et Cisco proposeront des systèmes basés sur Vera Rubin, tandis que Red Hat assure l'intégration Enterprise Linux et OpenShift. Une configuration plus compacte, le HGX Rubin NVL8 à 8 GPU, est également disponible pour les plateformes serveur x86.

Pourquoi c'est important

"Rubin arrive exactement au bon moment, alors que la demande en calcul IA pour l'entraînement et l'inférence explose", a déclaré Jensen Huang. Avec un prix estimé entre 3,5 et 4 millions de dollars par rack, Vera Rubin cible les hyperscalers et les déploiements d'IA souveraine nécessitant une densité de calcul maximale à un coût par token considérablement réduit.

La plateforme s'attaque au plus grand goulet d'étranglement de l'infrastructure IA — l'efficacité énergétique — rendant le déploiement d'IA à grande échelle environ 10 fois plus abordable par token d'inférence. Pour les entreprises entraînant des modèles de pointe, la réduction de 4x du nombre de GPU requis se traduit par des économies de plusieurs milliards de dollars.

Et ensuite ?

La conférence GTC de Nvidia, prévue du 16 au 19 mars 2026, devrait apporter des détails techniques plus approfondis et des démonstrations en direct des charges de travail Vera Rubin. La production étant déjà lancée, les premiers déploiements clients devraient arriver d'ici mi-2026.

Source : NVIDIA Newsroom