Des étudiants de Toronto gravent MicroGPT sur un FPGA et atteignent 53 000 tokens par seconde sans GPU

Deux étudiants ingénieurs de premier cycle de l'Université de Toronto, Luthira Abeykoon et Krish Chhajer, ont publié TALOS-V2, un projet open source qui implémente le transformeur MicroGPT d'Andrej Karpathy entièrement en matériel FPGA. La sortie, datée du 1er mai 2026, génère plus de 50 000 tokens par seconde sur une carte Terasic DE1-SoC vendue environ 300 dollars américains, sans GPU, sans PyTorch et sans boucle d'inférence sur CPU.

Points clés

TALOS-V2 grave le chemin d'inférence complet de MicroGPT en RTL sur un FPGA Cyclone V, incluant les embeddings, l'auto-attention, la normalisation, le MLP, la tête du modèle de langage et l'échantillonnage des tokens.
L'équipe a mesuré un débit soutenu d'environ 53 000 tokens par seconde sur la génération de noms au niveau caractère, fonctionnant sur une horloge PLL personnalisée à 56,25 MHz.
Le code est publié sous licence open source sur GitHub, avec l'objectif déclaré que "la conception d'accélérateurs est plus facile à apprendre lorsque toute la pile est visible".

Détails

MicroGPT est le transformeur pédagogique d'environ 200 lignes qu'Andrej Karpathy a publié plus tôt cette année, avec environ 4 192 paramètres entraînables et un vocabulaire de tokens au niveau caractère, entraîné sur son célèbre jeu de données de noms. TALOS-V2 prend cette architecture petite mais complète et traduit chaque étape en chemins de données explicites en virgule fixe écrits en SystemVerilog.

Au cœur de la conception se trouve une tuile matrix-vector à 16 voies en flux utilisant l'arithmétique en virgule fixe Q4.12. Cette tuile unique est multiplexée dans le temps entre les projections Q, K et V, les couches MLP et la tête du modèle de langage. C'est ainsi que l'équipe parvient à faire tenir le réseau complet sur une puce Cyclone V de niveau pédagogique. Les poids sont stockés dans une ROM sur la puce plutôt que récupérés depuis une mémoire externe, ce qui élimine le goulot d'étranglement de bande passante qui domine généralement l'inférence.

L'attention a été la partie la plus difficile à traduire, notent les auteurs. Ce qui est une seule ligne en PyTorch devient un pipeline matériel à huit étages : générer Q, K et V ; balayer les produits scalaires ; suivre le maximum courant ; approximer l'exponentielle ; accumuler ; diviser ; mélanger les valeurs ; et projeter en sortie.

Impact

Le projet est petit en valeur absolue, mais la démonstration compte. Elle montre qu'une boucle d'inférence de transformeur complète peut s'exécuter de bout en bout comme un pipeline matériel, avec les tokens entrant et sortant de la puce sans aucun logiciel sur le chemin. Pour l'IA en périphérie, la robotique et tout scénario embarqué sensible à la latence, c'est une preuve significative.

Les benchmarks ont déjà suscité des critiques. Alex Cheema et d'autres développeurs ont montré qu'un MacBook M4 Max exécutant du code C pur sur un seul cœur de performance dépasse 3,7 millions de tokens par seconde sur le même modèle, et qu'un M5 Pro atteint environ 6,7 millions. En débit brut par dollar et par watt pour cette charge de travail spécifique et minuscule, le silicium Apple moderne l'emporte largement.

Les auteurs de TALOS-V2 ne disent pas le contraire. Leur argumentaire est pédagogique et architectural plutôt que motivé par les benchmarks. L'objectif est de rendre chaque étape de l'inférence d'un transformeur visible sous forme de mémoires, de compteurs, de machines à états et de tables de correspondance, plutôt que sous forme de noyaux CUDA opaques.

Contexte

L'inférence IA basée sur FPGA n'est pas nouvelle à l'échelle des centres de données. Microsoft utilise des FPGA Intel pour l'inférence de Bing depuis des années, et AWS, Alibaba Cloud et d'autres proposent des instances FPGA pour des accélérateurs personnalisés. Ce qui est inhabituel, c'est un transformeur entièrement open source, de bout en bout, sur une carte de niveau pédagogique, accompagné d'un RTL lisible que les étudiants peuvent cloner et modifier.

La sortie intervient à un moment où l'industrie débat ouvertement pour savoir si l'avenir de l'inférence passera par davantage de GPU, des ASIC personnalisés comme la LPU de Groq et les systèmes Vera Rubin récemment annoncés par Nvidia, ou des tissus reconfigurables. TALOS-V2 est un point de données supplémentaire montrant que l'espace de conception reste largement ouvert.

Et après

Les auteurs ont déclaré qu'ils comptent garder le projet comme un artefact d'apprentissage plutôt que de courir après des modèles plus grands, qui ne tiendraient de toute façon pas sur un Cyclone V. De manière réaliste, étendre la même approche à des modèles à un milliard de paramètres nécessiterait soit des FPGA beaucoup plus grands avec HBM, soit un passage à des ASIC personnalisés. Plusieurs développeurs sur X expérimentent déjà le portage de la conception sur des cartes plus grandes et sur d'autres petits modèles open source, et une communauté s'est formée autour du dépôt GitHub dans les 48 premières heures suivant la sortie.

Pour les développeurs des programmes matériels au Maghreb et au Moyen-Orient ainsi que pour les startups d'IA embarquée, TALOS-V2 est une ressource rare : un transformeur FPGA complet, lisible et de bout en bout, qui peut être étudié, simulé et étendu sur du matériel abordable.

Source : Site officiel de TALOS-V2 et dépôt GitHub

Points clés

Détails

Impact

Contexte

Et après

Discutez de votre projet avec nous