exo : groupez des Mac pour exécuter des LLM en local

Pendant deux ans, la réponse à « comment exécuter un modèle de pointe en privé » tenait en une ligne : impossible, sauf à disposer d'un rack de GPU NVIDIA et d'un budget à cinq chiffres. En 2026, cette réponse a changé. Un projet open source nommé exo permet de mutualiser la mémoire de plusieurs Mac Apple Silicon en un seul cluster et d'exécuter des modèles qu'aucune machine seule ne pourrait contenir — un modèle de 671 milliards de paramètres sur huit Mac mini posés sur une étagère.

Pour les entreprises de la région MENA qui mettent en balance la souveraineté des données avec le coût et la confidentialité des API cloud, c'est une option véritablement nouvelle. Décortiquons son fonctionnement et son intérêt pour votre infrastructure.

L'idée centrale : mutualiser la mémoire unifiée

La principale contrainte d'un grand modèle de langage est la mémoire. Un modèle de 70 milliards de paramètres en précision 8 bits réclame environ 70 Go rien que pour ses poids ; un modèle de 671 milliards en exige des centaines. Aucune machine grand public n'embarque autant.

Apple Silicon possède une propriété singulière qui le rend intéressant ici : la mémoire unifiée. Le processeur, le GPU et le Neural Engine partagent le même pool de mémoire rapide, si bien qu'un Mac doté de 64 Go de mémoire unifiée peut en consacrer la quasi-totalité aux poids du modèle. exo franchit l'étape suivante — il coud ensemble la mémoire unifiée de plusieurs Mac pour que le pool combiné contienne un modèle bien plus grand que n'importe quel appareil seul.

Huit Mac mini M4 Pro de 64 Go chacun vous donnent 512 Go de mémoire adressable. C'est assez pour charger DeepSeek V3, ses 671 milliards de paramètres, et le servir à environ 5,37 jetons par seconde — soit plus vite, en réalité, qu'un modèle de 70 milliards sur le même matériel, car DeepSeek V3 est un modèle à « mélange d'experts » qui n'active qu'une fraction de ses poids par jeton.

Comment exo découpe un modèle

exo recourt à deux stratégies complémentaires pour répartir un modèle sur les appareils.

Le parallélisme en pipeline tranche le modèle en groupes contigus de couches — appelés shards — et affecte chaque shard à un appareil différent. Un jeton traverse les couches de l'appareil un, puis son petit vecteur d'activation (moins de 4 Ko en général) est transmis à l'appareil deux, et ainsi de suite. Comme seules de minuscules activations transitent par le réseau, la bande passante est rarement le goulet d'étranglement pour une requête isolée.

Le parallélisme tensoriel scinde les couches individuelles entre les appareils pour qu'ils calculent en parallèle, puis combine les résultats. C'est plus gourmand en réseau, mais — avec une interconnexion assez rapide — cela rend chaque requête réellement plus rapide au lieu de simplement augmenter le débit.

L'astuce, c'est qu'exo choisit la stratégie automatiquement. Chaque nœud scrute le réseau en temps réel — mesurant le type de lien, la latence, la bande passante et la mémoire disponible — et bâtit une carte topologique. Il place ensuite les shards selon les ressources de chaque appareil : un Mac Studio plus rapide porte davantage de couches qu'un mini plus ancien.

Zéro configuration, par conception

Vous ne désignez aucun nœud maître et n'éditez aucune adresse IP. Les appareils exo se découvrent en pair-à-pair (le projet est passé au protocole Zenoh pour cela), formant un cluster plat et égalitaire. Vous installez exo sur chaque Mac, vous les reliez, et le cluster s'assemble de lui-même.

Tout aussi important, exo parle les API que vos outils utilisent déjà. Il est compatible avec l'API OpenAI Chat Completions, l'API Claude Messages, l'API OpenAI Responses et l'API Ollama. Autrement dit, une application pointée vers OpenAI peut être redirigée vers votre cluster local en changeant une seule URL de base — sans réécriture.

# Après l'installation d'exo sur chaque Mac, le cluster expose un point de terminaison compatible OpenAI
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v3",
    "messages": [{"role": "user", "content": "Résume nos données de ventes du T2."}]
  }'

Sous le capot, exo s'appuie sur MLX, le framework d'apprentissage automatique d'Apple optimisé pour le GPU Metal et la mémoire unifiée, ce qui rend justement Apple Silicon compétitif en inférence.

La percée de 2026 : RDMA sur Thunderbolt 5

Jusqu'à récemment, le maillon faible d'un cluster de Mac était le réseau entre appareils. Le TCP standard sur Thunderbolt ajoutait environ 300 microsecondes de latence par saut — acceptable pour le parallélisme en pipeline, mais suffisant pour effacer les gains du parallélisme tensoriel. En ajoutant des nœuds, la vitesse d'une requête isolée baissait souvent.

La version exo 1.0 de 2026 change la donne avec un support immédiat de la technologie RDMA (accès direct à la mémoire distante) sur Thunderbolt 5, disponible sur macOS 26.2. RDMA permet à un appareil de lire la mémoire d'un autre presque comme si elle était locale, faisant chuter la latence inter-appareils d'environ 300 microsecondes à seulement 3 à 9 microsecondes — une réduction d'environ 99 pour cent.

L'effet concret : le parallélisme tensoriel passe enfin à l'échelle dans le bon sens :

1,8× plus rapide sur 2 appareils
3,2× plus rapide sur 4 appareils

Ajouter du matériel ajoute désormais de la vitesse au lieu d'en retrancher. Sur un cluster de quatre Mac Studio haut de gamme, Qwen3 et ses 235 milliards de paramètres passe d'environ 19 jetons par seconde sur un nœud à près de 32 jetons sur quatre — une vitesse interactive pour un modèle qui exigerait autrement un GPU de centre de données.

Pour activer RDMA, il faut une puce M4 Pro ou M4 Max (les puces M4 de base utilisent Thunderbolt 4 sans RDMA), des câbles Thunderbolt 5 de qualité et une commande unique rdma_ctl enable depuis le mode Recovery sur chaque nœud. exo détecte ensuite les liens RDMA et les privilégie automatiquement.

Pourquoi une entreprise MENA devrait s'y intéresser

Trois raisons font de cela plus qu'une curiosité de passionnés :

Souveraineté des données. Les dossiers clients, les données financières et la stratégie non publiée ne quittent jamais vos bureaux. Pour les secteurs réglementés et les organisations prudentes quant à l'envoi de données à l'étranger, l'inférence sur site supprime toute une catégorie de risques.
Coût marginal nul. L'inférence cloud facture au jeton, et une équipe active peut faire grimper la note à des milliers de dollars par mois. Un cluster de Mac a un coût matériel initial et une facture d'électricité — et Apple Silicon est remarquablement sobre — mais aucun frais par requête. Des charges lourdes et régulières amortissent vite le matériel.
Réutilisez ce que vous possédez. exo n'exige pas un parc homogène. Un vieux Mac mini retiré d'un bureau peut devenir un nœud d'inférence aux côtés d'un Mac Studio neuf. L'ordonnanceur conscient de la topologie lui confie simplement le travail qu'il peut assumer.

Les réserves honnêtes

C'est puissant, mais pas magique. Quelques points à peser avant d'acheter des câbles :

Thunderbolt ne passe pas à l'échelle à l'infini. Il n'existe pas de commutateurs Thunderbolt natifs, donc le maillage complet en RDMA reste pratique jusqu'à 4 à 8 nœuds environ. Les clusters plus grands se rabattent sur de l'Ethernet 10 gigabits pour certains liens, ce qui est plus lent.
C'est conçu pour l'inférence, pas l'entraînement. exo sert bien les modèles ; ce n'est pas l'outil pour affiner de grands modèles depuis zéro.
Le logiciel mûrit encore. Attendez-vous à des soucis de stabilité occasionnels et prévoyez du temps sur le Discord et le README GitHub. C'est de l'outillage de pointe, pas un appareil clé en main.
Câblage et refroidissement deviennent concrets à l'échelle. Huit Mac et une toile de câbles Thunderbolt réclament alimentation, ventilation et organisation.

Un point de départ raisonnable

Le bon premier pas est modeste : deux Mac mini M4 Pro reliés en Thunderbolt, exo installé depuis l'application macOS ou les sources, RDMA activé si votre matériel le permet. Ce duo exécutera sans peine de solides modèles à mélange d'experts à vitesse interactive, et validera le flux de travail sur vos vraies requêtes avant tout investissement plus lourd.

L'histoire plus vaste, c'est le basculement qu'incarne exo. L'inférence migre vers la périphérie — vers des appareils que vous contrôlez, dans vos murs, sous vos propres clés. Pour les équipes qui ont passé deux ans à voir leurs données privées s'écouler vers le centre de données d'un tiers, c'est un changement de fond. Le cluster sur l'étagère n'est plus une démo. En 2026, c'est une option de déploiement.

Besoin d'aide pour décider si l'inférence locale convient à votre charge, ou pour concevoir le matériel et le logiciel autour ? Noqta construit des infrastructures d'IA pour les entreprises de Tunisie, d'Arabie saoudite et de toute la région MENA — contactez-nous.

Sources : exo sur GitHub · exolabs.net · benchmarks 12 jours d'EXO