Les développeurs ont trouvé un moyen inattendu de réduire les coûts de l'API Claude Fable 5 : cesser d'envoyer du texte au modèle et lui envoyer des images de texte à la place. Un proxy local open source nommé pxpipe, publié sur GitHub sous licence MIT, intercepte les requêtes de Claude Code et convertit le contexte volumineux — invites système, documentation des outils et historique de conversation ancien — en images PNG denses avant qu'elles n'atteignent les serveurs d'Anthropic. Résultat, selon les mesures publiées par le projet : une réduction de 59 à 70 pour cent des factures API de bout en bout.
Points clés
- pxpipe convertit le contexte textuel éligible en images PNG de 1928×1928 pixels contenant jusqu'à environ 92 000 caractères pour un coût d'environ 4 761 tokens de vision — soit environ 3,1 caractères par token d'image, contre environ 1 caractère par token de texte.
- Le projet rapporte des factures de bout en bout inférieures de 59 à 70 pour cent sur des charges de production, et une compression de 72 à 74 pour cent sur les requêtes réécrites. Une session de codage documentée est passée de 42,21 dollars à 6,06 dollars sur des tâches identiques.
- La technique est explicitement avec perte : lors des tests, Claude Fable 5 n'a restitué correctement des chaînes hexadécimales exactes de 12 caractères que 13 fois sur 15, avec une confabulation silencieuse comme mode d'échec.
- Sur SWE-bench Lite, un essai pilote a résolu 10 tâches sur 10 avec et sans le proxy, tout en réduisant la taille des requêtes de 65 pour cent.
Détails
pxpipe fonctionne comme un proxy local sur la machine du développeur. Lancé avec une seule commande npx, il écoute sur un port local et réécrit les appels vers le point de terminaison des messages d'Anthropic. Pointer Claude Code vers le proxy via la variable d'environnement ANTHROPIC_BASE_URL est la seule configuration nécessaire, et un tableau de bord local affiche les économies de tokens en direct et chaque conversion effectuée.
Le proxy est sélectif dans ce qu'il compresse. Les gros résultats d'outils dépassant 6 000 caractères, l'historique ancien replié et l'invite système avec sa documentation d'outils sont rendus sous forme d'images. Les tours de conversation récents et toute la sortie du modèle restent toujours en texte brut, et les images ne sont utilisées que lorsque le texte est suffisamment dense — au-delà d'environ 19 caractères par token — pour que l'échange soit rentable.
L'équation économique repose sur une asymétrie tarifaire. Claude Fable 5 facture les images en tokens de vision dérivés de la résolution plutôt que du contenu : une page dense de texte rendu transporte donc bien plus d'informations par token facturé que le même contenu envoyé en texte brut. Les économies ont été mesurées par des sondes count_tokens parallèles enregistrées durant des sessions réelles.
Détail qui résume bien le moment que traverse l'outillage IA : le README précise que la plupart des commits du projet ont été rédigés par des sessions d'agents Opus et Fable fonctionnant elles-mêmes derrière pxpipe.
Impact
Pour les équipes menant de longues sessions de codage agentique, où le contexte accumulé domine régulièrement la facture, une réduction de 59 à 70 pour cent suffit à changer la façon de budgétiser les charges de travail. Les commentateurs sur X ont vite dégagé l'implication profonde : le prix d'une requête dépend désormais de la modalité qui transporte le contenu, et non de la quantité d'informations qu'elle contient.
La technique arbitre en pratique l'écart entre la tarification des tokens de texte et de vision. Plusieurs observateurs prédisent qu'Anthropic et les autres laboratoires unifieront la tarification des tokens de texte et d'image dès qu'un trafic suffisant contournera cet écart — ce qui signifie que la remise pourrait être temporaire.
La nature avec perte de la compression constitue la principale réserve. Les valeurs exactes à l'octet près comme les identifiants, les hachages et les secrets peuvent revenir erronés sans qu'aucune erreur ne soit levée. Le projet conseille d'acheminer les chaînes exactes en texte brut et note que les agents de codage tolèrent ce flou puisqu'ils relisent les fichiers avant de les modifier.
Contexte
Par défaut, pxpipe ne compresse le trafic que pour les modèles qui lisent le texte rendu de manière fiable — Claude Fable 5 et GPT 5.6. Les modèles plus anciens comme Opus 4.8, qui lit incorrectement environ 7 pour cent des rendus, et GPT 5.5 nécessitent une activation manuelle. Le proxy peut être entièrement désactivé, laissant passer les requêtes à l'identique, et il préserve le préfixe statique de l'invite afin que le cache de prompts d'Anthropic continue de fonctionner.
Claude Fable 5, lancé en juin 2026 comme premier modèle de la gamme Mythos d'Anthropic, est actuellement le modèle le plus capable largement disponible — et l'un des plus chers, à 10 dollars par million de tokens d'entrée et 50 dollars par million de tokens de sortie, soit le double du tarif d'Opus 4.8.
Et après
La question ouverte est la durée de vie de cet arbitrage. Si la compression de contexte par images se généralise, le déplacement du trafic apparaîtra dans les comptes des fournisseurs, et les modèles de tarification liés à des catégories comptables plutôt qu'au coût réel d'inférence seront mis sous pression. D'ici là, les développeurs disposent d'un outil fonctionnel sous licence MIT qui divise par plus de deux les factures des modèles de pointe — à condition de garder leurs hachages cryptographiques hors des images.
Source : GitHub