La startup Subquadratic, basée à Miami, est sortie de la phase furtive le 5 mai 2026 avec 29 millions de dollars en financement d'amorçage et un grand modèle de langage frontière baptisé SubQ que l'entreprise présente comme le premier à abandonner totalement l'attention quadratique. Le modèle prend en charge une fenêtre de contexte de 12 millions de tokens dans sa configuration de recherche et, selon les benchmarks internes, utilise environ un millième du calcul d'attention des modèles frontière comparables à pleine longueur de contexte.
Points clés
- Tour d'amorçage de 29 millions de dollars à une valorisation rapportée de 500 millions, avec Justin Mateen (cofondateur de Tinder), Javier Villamizar, Grant Gittlin et Jaclyn Rice Nelson parmi les investisseurs.
- Les fondateurs sont le PDG Justin Dangel, entrepreneur cinq fois fondateur, et le directeur technique Alex Whedon, ancien responsable de l'IA générative chez TribeAI et ingénieur logiciel chez Meta.
- Nouvelle mécanique d'attention nommée Subquadratic Sparse Attention ou SSA, dont le coût croît linéairement avec la longueur du contexte, sans aucune couche de repli quadratique.
- Trois produits lancés en bêta privée : SubQ API, SubQ Code (un agent de codage en ligne de commande) et SubQ Search.
Détails
Le lancement repose sur une seule revendication architecturale. Les transformeurs modernes s'appuient sur une attention dense dont le calcul et la mémoire croissent avec le carré de la longueur d'entrée, ce qui explique pourquoi les fenêtres de contexte d'un million de tokens sont coûteuses et celles de plusieurs dizaines de millions essentiellement non livrables. SubQ remplace cette mécanique par une variante parcimonieuse qui, pour chaque token de requête, sélectionne un petit sous-ensemble de positions selon le contenu plutôt que selon des motifs fixes, puis calcule l'attention exacte uniquement sur ces positions.
Selon les chiffres publiés, l'attention parcimonieuse de la société serait environ 52 fois plus rapide que FlashAttention à un million de tokens et utiliserait 63 pour cent de calcul en moins. À pleine fenêtre de 12 millions de tokens, Subquadratic revendique une réduction d'environ 1 000 fois du calcul d'attention par rapport aux autres modèles frontière. Sur RULER 128K, SubQ affiche 95,0 pour cent de précision contre 94,8 pour cent pour Claude Opus 4.6. Sur SWE-Bench Verified, l'entreprise rapporte 81,8 pour cent, devançant légèrement Opus 4.6 à 80,8 pour cent. La configuration de recherche obtient 83 sur MRCR v2, tandis que le modèle de production exposé aux utilisateurs en accès anticipé — baptisé SubQ 1M-Preview — obtient 65,9 à un million de tokens, derrière Opus 4.6 à 78,3 et GPT-5.5 à 74.
Le PDG Justin Dangel a résumé le pari sans détour dans le billet d'annonce: "La mise à l'échelle quadratique a été cette contrainte pour l'IA. Les applications les plus précieuses de l'IA restent à construire parce que l'architecture existante ne peut pas les supporter."
Impact
Si ces chiffres tiennent face à une évaluation indépendante, l'économie de l'inférence à long contexte change de catégorie. La comparaison de référence de Subquadratic sur RULER 128K — 95 pour cent de précision pour environ 8 dollars de calcul, contre 94 pour cent pour Claude Opus à environ 2 600 dollars — implique une réduction de coût approchant deux ordres de grandeur à précision compétitive. Cela menacerait directement la pile de génération augmentée par récupération que l'industrie a bâtie autour du plafond de coût de l'attention quadratique, puisque la réponse évidente à un contexte devenu bon marché est d'arrêter de découper les documents et de coller le tout d'un seul bloc.
Pour les développeurs, SubQ Code constitue l'accroche la plus concrète à court terme : un agent en ligne de commande conçu pour charger des bases de code entières dans une seule fenêtre de contexte plutôt que de s'appuyer sur la récupération sur chunks. L'API expose le modèle de production via des endpoints compatibles avec OpenAI et prend en charge l'utilisation d'outils.
Contexte
Le scepticisme au sein de la communauté IA est structuré et précis. Le chiffre de 12 millions de tokens est un résultat de recherche, pas l'artefact de production. Le modèle livré expose un million de tokens, et les benchmarks publiés s'arrêtent largement à ce niveau. L'ingénieur en IA Will Depue a soutenu sur X que SubQ pourrait plausiblement être un fine-tuning d'attention parcimonieuse au-dessus d'un modèle ouvert existant plutôt qu'une architecture conçue depuis zéro, et que les chiffres de mise à l'échelle linéaire et d'accélération ne s'alignent pas évidemment. Une revue préalable des architectures subquadratiques antérieures — Mamba, RWKV, Kimi Linear, DeepSeek Sparse Attention — concluait que ces approches avaient lutté pour la récupération mémoire précise et la copie exacte à l'échelle frontière, l'obstacle que SubQ devrait franchir.
Le lancement a aussi adopté une posture fermée qui contraste fortement avec la sortie en poids ouverts de concavity-ai plus tôt cette année: pas de rapport technique complet, pas de poids publics, accès anticipé sur invitation, et annonce d'un successeur à 50 millions de tokens avant vérification indépendante du modèle actuel. Plusieurs développeurs ont posé la question évidente le jour du lancement: si SSA est si bon marché, pourquoi l'accès est-il restreint?
La suite
Des benchmarks indépendants à la pleine fenêtre de 12 millions de tokens sont la seule chose qui résoudra la réaction divisée. Subquadratic a déjà préannoncé un modèle successeur de 50 millions de tokens, ce qui rehausse la mise sur la vérification des revendications actuelles. Les places en accès anticipé sont ouvertes sur subq.ai pour l'API ainsi que pour les produits de codage et de recherche, et le tarif rapporté tourne autour de 1,50 dollar par million de tokens pour le modèle de production — soit environ un dixième du tarif de référence des modèles frontière comparables, si ce chiffre survit à l'exposition publique.
Source: SiliconANGLE