Noqta
  • Accueil
  • Services
  • À propos
  • Écrits
  • Se connecter
écrits/news/2026/03
● News17 mars 2026·6 min

NVIDIA dévoile le Groq 3 LPU au GTC 2026 : une puce d'inférence dédiée qui surpasse les GPU

NVIDIA présente le Groq 3 Language Processing Unit au GTC 2026, une puce d'inférence IA dédiée avec 500 Mo de SRAM intégrée et 150 To/s de bande passante — sept fois plus rapide que les GPU Rubin pour les charges d'inférence.

Noqta Team
Noqta Team
Author
·EN · FR · AR

Le PDG de NVIDIA, Jensen Huang, a dévoilé le Groq 3 Language Processing Unit (LPU) lors de sa keynote au GTC 2026 le 16 mars, marquant la première puce d'inférence dédiée issue de l'accord de licence de 20 milliards de dollars entre NVIDIA et la startup Groq, finalisé la veille de Noël 2025.

Points clés

  • Le Groq 3 LPU offre 150 To/s de bande passante mémoire, soit sept fois plus que les 22 To/s de la HBM4 de chaque GPU Vera Rubin
  • Chaque puce embarque 500 Mo de SRAM intégrée, remplaçant la mémoire HBM externe traditionnelle
  • Les racks LPX refroidis par liquide abritent 256 LPU avec 128 Go de SRAM intégrée et 640 To/s de bande passante
  • Combiné aux GPU Rubin, le système délivre un débit 35 fois supérieur par mégawatt

Une nouvelle architecture pour l'inférence

Contrairement aux GPU qui reposent sur la mémoire à haute bande passante (HBM) située à côté du processeur, le Groq 3 LPU entrelace directement les unités de traitement avec les unités de mémoire sur la puce. Cette conception crée un flux de données linéaire et simplifié qui réduit considérablement la latence — un facteur critique pour les applications d'IA agentique en temps réel.

L'architecture est spécialement conçue pour l'ère émergente des charges de travail multi-agents, où des millions d'agents IA doivent raisonner et répondre en quelques millisecondes. En rapprochant le traitement des données de la mémoire, le Groq 3 élimine le goulot d'étranglement qui limite l'inférence basée sur GPU à grande échelle.

Racks LPX : l'inférence à l'échelle du data center

NVIDIA déploiera le Groq 3 dans des racks LPX dédiés, chacun contenant 256 LPU connectés via un réseau haute vitesse. Ces systèmes refroidis par liquide sont conçus pour fonctionner aux côtés des racks GPU Vera Rubin, créant une architecture hybride où les GPU gèrent l'entraînement et le raisonnement complexe tandis que les LPU accélèrent le débit d'inférence.

Ensemble, le système combiné est conçu pour traiter des modèles à mille milliards de paramètres et des fenêtres de contexte d'un million de tokens, ouvrant ce que NVIDIA décrit comme une opportunité de revenus 10 fois supérieure pour les fournisseurs cloud et les entreprises.

Un pari de 20 milliards de dollars sur l'inférence

Le Groq 3 est le résultat direct de la plus grande transaction de propriété intellectuelle de l'histoire de NVIDIA. En décembre 2025, NVIDIA a obtenu une licence non exclusive sur la technologie d'inférence à faible latence de Groq pour 20 milliards de dollars — une initiative que les analystes comparent à l'acquisition transformatrice de Mellanox en 2019.

"La prochaine grande vague de l'informatique IA va tourner autour de l'inférence", a déclaré Huang lors de la keynote du GTC. Alors que l'IA passe de l'entraînement de modèles massifs à leur déploiement à travers des milliards d'interactions, le matériel d'inférence dédié devient essentiel tant pour les performances que pour l'efficacité énergétique.

Ce que cela signifie pour l'industrie

Le Groq 3 LPU marque un changement fondamental dans l'infrastructure IA. Jusqu'à présent, les GPU dominaient à la fois les charges d'entraînement et d'inférence. Avec une puce d'inférence dédiée offrant 7 fois la bande passante mémoire de son meilleur GPU, NVIDIA crée effectivement une stratégie à deux puces : les GPU Rubin pour l'entraînement et le raisonnement, les LPU Groq 3 pour l'inférence à haut débit.

Pour les fournisseurs cloud, cela se traduit par un coût par token et une consommation énergétique nettement inférieurs. Pour les développeurs qui construisent des systèmes d'IA agentique, cela signifie que l'infrastructure nécessaire pour supporter les interactions multi-agents en temps réel à grande échelle arrive plus vite que prévu.

Les premières livraisons du Groq 3 LPU sont prévues pour le troisième trimestre 2026.


Source : Blog développeurs NVIDIA

● Tags
#AI#Technology#Product Launch
● Partage
● Une question ?

Discutez de cet article avec un agent Noqta.

Noqta Team
Noqta Team
Author · noqta
Suivre ↗

● À lire ensuite

L'Argentine veut légaliser les 'entreprises non humaines' entièrement pilotées par l'IA
● News

L'Argentine veut légaliser les 'entreprises non humaines' entièrement pilotées par l'IA

9 juin 2026
Galbot et Tsinghua devoilent LATENT : un robot humanoide qui a appris le tennis a partir de clips amateurs
● News

Galbot et Tsinghua devoilent LATENT : un robot humanoide qui a appris le tennis a partir de clips amateurs

15 mars 2026
Google s'engage à investir jusqu'à 40 milliards de dollars dans Anthropic en cash et en TPU
● News

Google s'engage à investir jusqu'à 40 milliards de dollars dans Anthropic en cash et en TPU

25 avr. 2026
Noqta
Conditions générales · Politique de Confidentialité
Services
  • Automatisation IA
  • Agents IA
  • Automatisation CX
  • Vibe Coding
  • Gestion de Projet
  • Assurance Qualité
  • Développement Web
  • Intégration API
  • Applications Métier
  • Maintenance
  • Low-Code/No-Code
Liens
  • À propos de nous
  • Comment ça marche?
  • Actualités
  • Tutoriels
  • Blog
  • Contact
  • FAQ
  • Ressources
Régions
  • Arabie Saoudite
  • Émirats Arabes Unis
  • Qatar
  • Bahreïn
  • Oman
  • Libye
  • Tunisie
  • Algérie
  • Maroc
Entreprise
  • Noqta, Tunisie, Tunis, téléphone +216 40 385 594
© Noqta. Tous droits réservés.