NVIDIA dévoile le Groq 3 LPU au GTC 2026 : une puce d'inférence dédiée qui surpasse les GPU

Le PDG de NVIDIA, Jensen Huang, a dévoilé le Groq 3 Language Processing Unit (LPU) lors de sa keynote au GTC 2026 le 16 mars, marquant la première puce d'inférence dédiée issue de l'accord de licence de 20 milliards de dollars entre NVIDIA et la startup Groq, finalisé la veille de Noël 2025.

Points clés

Le Groq 3 LPU offre 150 To/s de bande passante mémoire, soit sept fois plus que les 22 To/s de la HBM4 de chaque GPU Vera Rubin
Chaque puce embarque 500 Mo de SRAM intégrée, remplaçant la mémoire HBM externe traditionnelle
Les racks LPX refroidis par liquide abritent 256 LPU avec 128 Go de SRAM intégrée et 640 To/s de bande passante
Combiné aux GPU Rubin, le système délivre un débit 35 fois supérieur par mégawatt

Une nouvelle architecture pour l'inférence

Contrairement aux GPU qui reposent sur la mémoire à haute bande passante (HBM) située à côté du processeur, le Groq 3 LPU entrelace directement les unités de traitement avec les unités de mémoire sur la puce. Cette conception crée un flux de données linéaire et simplifié qui réduit considérablement la latence — un facteur critique pour les applications d'IA agentique en temps réel.

L'architecture est spécialement conçue pour l'ère émergente des charges de travail multi-agents, où des millions d'agents IA doivent raisonner et répondre en quelques millisecondes. En rapprochant le traitement des données de la mémoire, le Groq 3 élimine le goulot d'étranglement qui limite l'inférence basée sur GPU à grande échelle.

Racks LPX : l'inférence à l'échelle du data center

NVIDIA déploiera le Groq 3 dans des racks LPX dédiés, chacun contenant 256 LPU connectés via un réseau haute vitesse. Ces systèmes refroidis par liquide sont conçus pour fonctionner aux côtés des racks GPU Vera Rubin, créant une architecture hybride où les GPU gèrent l'entraînement et le raisonnement complexe tandis que les LPU accélèrent le débit d'inférence.

Ensemble, le système combiné est conçu pour traiter des modèles à mille milliards de paramètres et des fenêtres de contexte d'un million de tokens, ouvrant ce que NVIDIA décrit comme une opportunité de revenus 10 fois supérieure pour les fournisseurs cloud et les entreprises.

Un pari de 20 milliards de dollars sur l'inférence

Le Groq 3 est le résultat direct de la plus grande transaction de propriété intellectuelle de l'histoire de NVIDIA. En décembre 2025, NVIDIA a obtenu une licence non exclusive sur la technologie d'inférence à faible latence de Groq pour 20 milliards de dollars — une initiative que les analystes comparent à l'acquisition transformatrice de Mellanox en 2019.

"La prochaine grande vague de l'informatique IA va tourner autour de l'inférence", a déclaré Huang lors de la keynote du GTC. Alors que l'IA passe de l'entraînement de modèles massifs à leur déploiement à travers des milliards d'interactions, le matériel d'inférence dédié devient essentiel tant pour les performances que pour l'efficacité énergétique.

Ce que cela signifie pour l'industrie

Le Groq 3 LPU marque un changement fondamental dans l'infrastructure IA. Jusqu'à présent, les GPU dominaient à la fois les charges d'entraînement et d'inférence. Avec une puce d'inférence dédiée offrant 7 fois la bande passante mémoire de son meilleur GPU, NVIDIA crée effectivement une stratégie à deux puces : les GPU Rubin pour l'entraînement et le raisonnement, les LPU Groq 3 pour l'inférence à haut débit.

Pour les fournisseurs cloud, cela se traduit par un coût par token et une consommation énergétique nettement inférieurs. Pour les développeurs qui construisent des systèmes d'IA agentique, cela signifie que l'infrastructure nécessaire pour supporter les interactions multi-agents en temps réel à grande échelle arrive plus vite que prévu.

Les premières livraisons du Groq 3 LPU sont prévues pour le troisième trimestre 2026.

Source : Blog développeurs NVIDIA

Points clés

Une nouvelle architecture pour l'inférence

Racks LPX : l'inférence à l'échelle du data center

Un pari de 20 milliards de dollars sur l'inférence

Ce que cela signifie pour l'industrie

Discutez de votre projet avec nous