PrismML Bonsai : des modèles 1-bit de 8B tournant sur iPhone

Pendant trois ans, l'industrie de l'IA a optimisé une seule variable : plus de paramètres. GPT-5, Claude Opus 4.7, Gemini Ultra, Grok 4.3 — chaque version phare a poussé le plafond plus haut et l'empreinte mémoire plus lourde. Un assistant "de classe 8B" était un produit cloud, pas un produit embarqué.

PrismML, un laboratoire issu de Caltech sorti de la furtivité le 31 mars 2026, vient de déplacer ce plafond latéralement. Sa famille Bonsai 1-bit fait tenir un véritable modèle de langage dense de 8 milliards de paramètres dans environ 1,15 Go de mémoire et le fait tourner à 40 tokens par seconde sur un iPhone 17 Pro. L'ensemble de la série 8B, 4B et 1.7B est open-source sous licence Apache 2.0.

Ce n'est pas une quantification superficielle d'un modèle cloud. C'est une architecture 1-bit native, qui redessine la frontière de faisabilité entre IA cloud et IA locale.

Que signifie "véritablement 1-bit" ?

La plupart des techniques de quantification dont vous avez entendu parler — INT4, AWQ, GPTQ, même le nouveau NVFP4 de NVIDIA — compressent un modèle entraîné en pleine précision après coup. Le moteur d'inférence décode les poids compressés vers une précision plus élevée au moment de l'exécution, sacrifiant un peu de précision pour économiser de la mémoire.

Bonsai va plus loin. Chaque partie du réseau — les embeddings, les projections d'attention, les couches MLP, la tête du modèle de langage — stocke ses poids sous forme d'un seul bit de signe. Zéro correspond à moins-échelle, un correspond à plus-échelle, et une échelle FP16 partagée est amortie sur chaque groupe de 128 poids. Résultat : 1,125 bit effectif par poids en format GGUF, et 1,25 bit par poids dans le format MLX d'Apple.

Le modèle 8B passe d'environ 16 Go en FP16 à environ 1,15 Go sur disque. Le 4B tient dans 0,57 à 0,63 Go. La variante 1.7B descend à environ 0,24 Go — assez petit pour loger dans un bundle d'application mobile.

Une histoire de benchmarks plus nuancée

Le slogan marketing de PrismML est "densité d'intelligence" — le score du benchmark divisé par la taille du modèle en gigaoctets. Selon cette métrique, Bonsai 8B obtient 1,062 par Go contre 0,098 pour Qwen3 8B. Le cadrage est directionnellement utile car la mémoire, et non le nombre de paramètres, est souvent la ressource limitante sur un téléphone, un ordinateur portable ou un Raspberry Pi.

Les chiffres bruts racontent une histoire plus honnête. Sur le panier de benchmarks publiés par PrismML, Bonsai 8B 1-bit affiche en moyenne 70,5, ce qui est :

Au-dessus de Llama 3.1 8B (67,1)
À peu près à égalité avec Olmo3 7B (70,9) et Mistral3 8B (71,0)
En dessous de RNJ 8B (73,1) et nettement en dessous de Qwen3 8B (79,3)

La suite, Ternary Bonsai 8B, réduit l'écart. Avec des poids ternaires (moins un, zéro, plus un), elle tient dans 1,75 Go et affiche une moyenne de 75,5 — battant tous les modèles de sa classe sauf Qwen3 8B en pleine précision, qui a besoin de 16 Go pour la rattraper.

Traduction : la famille 1-bit se situe dans le tiers supérieur des modèles de classe 8B, mais vous payez environ un quatorzième de la mémoire et quatre à six fois moins d'énergie par token sur Apple silicon. Pour beaucoup d'assistants de production, c'est un arbitrage gagnant.

Pourquoi c'est important pour l'IA d'entreprise

Le vrai sujet n'est pas "un meilleur benchmark", c'est "une nouvelle enveloppe de déploiement". Un modèle de classe 8B qui tient dans la mémoire d'un téléphone débloque des cas d'usage auparavant impossibles ou non économiques :

Inférence privée sur des données réglementées (santé, finance, secteur public) sans envoyer un octet à un fournisseur cloud
Agents terrain hors ligne pour la logistique, l'inspection industrielle et le travail distant dans des zones à faible couverture
Assistants à connectivité intermittente sur les applications de livraison, les flottes de transport et les outils agricoles
Copilotes embarqués dans les logiciels de bureau, les outils de CAO et les terminaux de point de vente
Déploiements souverains lorsque les règles de résidence des données rendent juridiquement délicate l'inférence sur un hyperscaler

Pour les équipes des marchés MENA, les deux derniers sont décisifs. Faire tourner un modèle de 1,15 Go sur du matériel courant dans un datacenter local ou sur l'ordinateur d'un employé évite les contraintes de transfert de données transfrontalier qui bloquent encore beaucoup de projets IA.

Comparaison avec NVIDIA NVFP4 et Google TurboQuant

Bonsai est souvent regroupé avec NVFP4 de NVIDIA et TurboQuant de Google sous l'étiquette paresseuse de "compression IA". En réalité, les trois attaquent des problèmes différents.

NVIDIA NVFP4 est un format virgule flottante 4-bit dans la pile Blackwell de NVIDIA. Il stocke une valeur 4-bit plus une échelle FP8 par bloc de 16 valeurs, et une échelle FP32 de second niveau par tenseur — environ 4,5 bits par valeur. NVIDIA rapporte une perte de précision proche de zéro sur des modèles comme DeepSeek-R1-0528 en passant de FP8 à NVFP4. L'objectif est de préserver la qualité frontière dans les déploiements GPU en datacenter, pas de faire tenir des modèles sur des téléphones.

Google TurboQuant n'est pas du tout un compresseur de poids. C'est un quantificateur vectoriel en ligne pour les caches clé-valeur et la recherche vectorielle en haute dimension. Google rapporte une qualité neutre à 3,5 bits par canal et jusqu'à 8x d'accélération dans le calcul des logits d'attention sur H100. Il compresse l'état de contexte pendant l'inférence, pas les poids statiques.

Les trois techniques sont complémentaires, pas concurrentes. Une pile d'entreprise future pourrait exécuter des poids de base style Bonsai sur le terminal, NVFP4 sur la couche de raisonnement cloud, et une compression KV style TurboQuant sur les deux pour étendre la longueur de contexte. Aucune d'elles ne rend l'autre obsolète.

Le tableau de la commercialisation

Bonsai est une technologie réelle, mais c'est une infrastructure en pré-mise à l'échelle. Les signaux positifs sont concrets :

Poids publics sur Hugging Face sous Apache 2.0
Support des formats GGUF et MLX, avec un dépôt de démo public et un notebook Colab
Distribution iPhone dès le jour zéro via Locally AI
Soutien crédible — fondateur Babak Hassibi (Caltech), conseillers dont Ion Stoica, soutien de Khosla, Cerberus, Caltech et Google compute, avec environ 16,25 millions de dollars divulgués par le WSJ

Les signaux contraires comptent aussi. Les noyaux d'inférence 1-bit requis ne sont pas encore intégrés en amont dans llama.cpp ou MLX — vous tournez aujourd'hui sur les forks de PrismML. Il n'y a pas d'API hébergée, pas de plan de contrôle entreprise, et pas de client de production nommé. Les cartes de modèles Hugging Face montrent zéro fournisseur d'inférence.

Pour une équipe de production, cela signifie que Bonsai est prêt pour des pilotes et des déploiements internes, pas pour un pari d'intégration critique. Les six à douze prochains mois révéleront si PrismML peut faire accepter ses noyaux en amont, signer des accords OEM, et transformer une sortie développeur impressionnante en infrastructure sur laquelle les entreprises peuvent construire en confiance.

Que faire concrètement ?

Si vous livrez du logiciel dans la région MENA, trois expériences valent la peine au deuxième trimestre 2026 :

Prototypez un assistant privé sur Bonsai 4B ou Ternary Bonsai 8B pour un workflow interne — résumé de tickets support, classification documentaire, contrôles de conformité — et comparez coût et latence avec votre appel LLM cloud actuel.
Testez l'enveloppe hors ligne. Votre application mobile peut-elle faire tourner un Bonsai 1.7B pour de la rédaction embarquée, de la traduction, ou du speech-to-text ? Si oui, vous supprimez les allers-retours API et débloquez des surfaces produit qui exigeaient la connectivité.
Benchmarkez sur vos propres données. Les benchmarks publics sont un signal, pas une vérité. Exécutez Bonsai sur un ensemble d'évaluation interne étiqueté pour savoir exactement où se trouve la falaise de précision pour votre cas d'usage.

La leçon plus large est que la cible d'optimisation en 2026 est passée du nombre brut de paramètres à la capacité par octet, par watt, et par dollar. Les modèles cloud frontière garderont la couronne sur le raisonnement difficile et la multimodalité. Tout le reste est à prendre — et les premières équipes à reconstruire leurs pipelines IA autour de ce clivage livreront plus vite, dépenseront moins, et garderont plus de leurs données sur leur propre sol.

PrismML n'a pas tué le datacenter. Il a silencieusement redessiné la carte des endroits où l'IA peut physiquement vivre.