Pendant deux ans, toutes les courbes de "coût IA par token" pointaient dans la même direction : vers le bas. Cette histoire est terminée. En mai 2026, l'API d'OpenAI traite désormais 15 milliards de tokens par minute, contre 6 milliards en octobre 2025. Les prix de location des puces Nvidia Blackwell ont bondi de 48% en deux mois. La disponibilité de l'API Claude d'Anthropic est tombée à 98,95% sur les 90 derniers jours, sous le seuil de la plupart des SLA d'entreprise. Et Satya Nadella, PDG de Microsoft, a déclaré aux actionnaires que la société n'est plus limitée par les puces, mais par l'électricité, avec un carnet de commandes Azure de 80 milliards de dollars qu'elle ne peut pas exécuter.
L'ère de l'IA bon marché et abondante est révolue. Ce qui vient ensuite est un problème d'approvisionnement, pas un problème de modèles. Et cela change la manière dont chaque entreprise doit planifier sa feuille de route IA pour le reste de 2026.
Quatre goulots d'étranglement en même temps
La crise n'est pas une seule pénurie. C'est quatre pénuries qui frappent simultanément et se renforcent mutuellement.
1. Les GPU. Les délais de livraison des GPU de centre de données vont désormais de 36 à 52 semaines. Les entreprises qui n'ont pas commandé de puces de classe Blackwell avant début 2026 visent des livraisons au premier trimestre 2027. CoreWeave augmente ses prix de location de plus de 20% et exige des contrats plus longs. La capacité ponctuelle a pratiquement disparu pour les accélérateurs haut de gamme.
2. La mémoire. La mémoire à haute bande passante (HBM) est la crise silencieuse derrière la crise des GPU. La mémoire devrait représenter environ 30% des dépenses IA des hyperscalers en 2026, contre 8% en 2023 et 2024. Les hyperscalers ont verrouillé près de 40% de l'approvisionnement mondial en DRAM via des contrats pluriannuels. Les kits DDR5 pour serveurs qui coûtaient environ 90 dollars en 2025 se vendent maintenant à 240 dollars ou plus.
3. Les CPU. Souvent oubliés dans la ruée vers l'IA agentique : chaque charge IA a besoin de CPU d'orchestration autour des accélérateurs. TSMC ne peut satisfaire qu'environ 80% de la demande de wafers CPU en 2026. Les délais de livraison des CPU serveur se sont étirés à six mois, avec des prix haut de gamme en hausse de plus de 10%.
4. L'électricité. C'est le goulot qui ne se résout pas en 12 mois. Le rapport CSIS de mars 2026 — Le goulot d'étranglement de l'approvisionnement électrique sur la domination IA américaine — a constaté des délais de raccordement au réseau allant jusqu'à sept ans en Virginie du Nord. La demande des centres de données américains devrait atteindre 150 GW d'ici 2028, avec un déficit de 49 GW déjà acquis. À l'échelle mondiale, les centres de données sont en passe de consommer plus de 1 000 TWh en 2026, soit à peu près la consommation annuelle totale d'électricité du Japon.
Le fonds de 13,7 milliards de dollars de Leopold Aschenbrenner a rendu sa position publique ce mois-ci : 7,5 milliards en options de vente sur Nvidia, Broadcom, AMD, TSMC et Oracle, tout en allant long sur l'infrastructure énergétique, les mineurs et les valeurs de l'énergie. Sa thèse en une phrase : l'IA a besoin d'électricité avant d'avoir besoin de puces. Celui qui contrôle l'énergie contrôle l'avenir.
Pourquoi la fiabilité décline
La plupart des conseils d'administration traitent encore les API IA comme du SaaS — supposer quatre neufs de disponibilité, construire le produit sur cette hypothèse. Cette hypothèse se brise.
Une disponibilité de 98,95% sur 90 jours chez Anthropic équivaut à environ 9 heures d'indisponibilité par mois. Pour un agent en contact direct avec les clients, c'est un sérieux problème d'expérience utilisateur. Sarah Friar, directrice financière d'OpenAI, a dit aux investisseurs que l'entreprise "fait des arbitrages difficiles" et reporte ou annule des projets parce que la capacité de calcul n'est tout simplement pas disponible. CoreWeave a prévenu ses clients au premier trimestre que la capacité contractuelle pourrait être réallouée à des locataires payant davantage lorsque les réseaux flanchent.
Si votre fonctionnalité IA a un SLA strict — par exemple un chatbot bancaire ou un outil de triage clinique — un déploiement sur un seul fournisseur devient désormais un véritable risque opérationnel.
Ce que cela signifie pour les entreprises (et surtout pour la région MENA)
Trois choses changent simultanément : le coût, la disponibilité et la géographie.
Les modèles de coût se brisent. Les pages tarifaires au token sont toujours publiques, mais le prix réel est la capacité. Les entreprises disposant de contrats d'engagement antérieurs paient une fraction de ce que paient les nouveaux clients. Si votre business case reposait sur les prix de 2024, refaites-le.
La disponibilité devient une affaire de conseil d'administration. Les fonctionnalités IA en production ont besoin de fournisseurs de secours, de politiques de re-essai et de dégradation gracieuse en cas de tension sur la capacité. La question "Quel est notre plan de reprise si Anthropic tombe pendant deux heures ?" est désormais une question légitime en revue trimestrielle.
La géographie compte à nouveau. Le Golfe possède ce que la plupart du monde n'a pas : une électricité bon marché, abondante et pilotable. L'Arabie saoudite et les Émirats arabes unis se positionnent agressivement comme exportateurs de calcul IA, en construisant des campus dédiés à l'IA avec un approvisionnement énergétique sécurisé. Pour les entreprises de la région MENA, c'est une opportunité d'une génération : une infrastructure IA souveraine régionale qui pourrait être effectivement plus fiable que les régions hyperscaler US-East d'ici 2027.
Six stratégies pour survivre à la crise
Pour les dirigeants business et techniques qui prennent des décisions IA dans les six prochains mois :
-
Dimensionnez le bon modèle. La plupart des tâches en production n'ont pas besoin de raisonnement frontalier. Un Haiku bien sollicité, un Llama-3.3 ou un Mistral-Small délivreront 95% de la valeur à 10% du coût, et ne seront pas en file d'attente derrière ChatGPT aux heures de pointe.
-
Cachez agressivement. Le cache de prompt peut réduire le coût d'inférence jusqu'à 90% sur les charges à contexte répété. La plupart des équipes ne l'utilisent toujours pas. Auditez vos charges à la recherche de prompts système répétés et de contextes longs.
-
Construisez multi-fournisseurs dès le jour un. Utilisez une couche de routage (LiteLLM, OpenRouter, ou la vôtre) capable de basculer entre Anthropic, OpenAI, Bedrock et un endpoint open-weight. Testez le basculement chaque trimestre, pas après la première panne.
-
Déplacez les charges sensibles à la latence en interne ou en edge. Un Qwen-3, Mistral ou Llama auto-hébergé sur un GPU dédié devient économiquement compétitif dès que les prix d'API intègrent les primes de capacité et le risque SLA. Pour les outils internes, la classification et la modération de contenu, le calcul a basculé.
-
Verrouillez les contrats de capacité maintenant. Si votre feuille de route IA nécessite un volume d'inférence significatif au second semestre 2026 ou en 2027, engagez le prix et la capacité maintenant. Aux entreprises qui négocieront encore au troisième trimestre, on dira de revenir l'année suivante.
-
Surveillez le Golfe. HUMAIN Arabie saoudite, G42 Émirats arabes unis, et des acteurs régionaux émergents en Tunisie et en Égypte construisent un cloud spécifique IA. Pour les entreprises de la région, la latence vers Dubaï ou Riyad bat celle vers Francfort, et le récit réglementaire est bien plus clair que celui des fournisseurs basés aux États-Unis sous les règles européennes sur les données.
Le recadrage stratégique
Les entreprises qui gagneront les 18 prochains mois ne seront pas celles aux plus grandes ambitions IA, mais celles qui auront traité le calcul IA comme une ressource rare et disputée et qui auront conçu leurs systèmes en conséquence. Cela signifie l'efficacité plutôt que l'échelle, la redondance plutôt que le pari mono-fournisseur, et le verrouillage de la capacité avant le reste du marché.
L'ère de l'IA bon marché était une fenêtre, pas une destination. La fenêtre s'est fermée. Les entreprises qui planifient encore comme si elle ne l'était pas sont celles qui passeront l'année prochaine à expliquer à leurs conseils pourquoi leur feuille de route IA a pris deux trimestres de retard.
Si vous reconstruisez votre stratégie IA pour faire face à la crise, Noqta aide les entreprises MENA à concevoir des architectures IA qui survivent aux pannes de fournisseurs, aux réallocations de capacité et à la nouvelle économie du calcul rare.