Au-delà des transformeurs : attention sous-quadratique et 12M

Depuis près d'une décennie, chaque modèle de langage de pointe porte la même taxe cachée. L'architecture transformeur qui anime GPT, Claude et Gemini compare chaque jeton à tous les autres. Doublez l'entrée et le travail quadruple à peu près. Ce coût quadratique explique pourquoi les longs documents sont tronqués, pourquoi les fenêtres de contexte « d'un million de jetons » coûtent cher à exploiter réellement, et pourquoi la génération augmentée par récupération existe tout simplement.

En mai 2026, une startup de Miami nommée Subquadratic est sortie de l'ombre avec 29 millions de dollars et une affirmation qui tombe comme un coup de tonnerre : un modèle de premier rang, baptisé SubQ, qui ne paie pas la taxe quadratique. Une fenêtre de contexte de 12 millions de jetons. Un coût environ 50 fois inférieur à celui des modèles dominants. Si elle est validée, ce serait la rupture architecturale la plus marquante depuis l'arrivée du transformeur lui-même en 2017.

Que SubQ résiste ou non à un examen indépendant, la direction qu'il indique compte pour quiconque construit des produits d'IA. Ce guide explique le problème quadratique en termes simples, ce que les architectures sous-quadratiques changent réellement, et comment penser ce virage sans miser votre feuille de route sur le benchmark d'une seule startup.

Le mur quadratique, simplement expliqué

L'attention est le mécanisme qui permet à un modèle de décider quels mots antérieurs comptent pour prédire le suivant. Dans un transformeur standard, l'attention est calculée entre chaque paire de jetons. Pour une séquence de longueur N, cela représente environ N fois N opérations.

Les chiffres deviennent brutaux très vite. Passer de 1 000 à 10 000 jetons multiplie la longueur par 10, mais le calcul d'attention par 100. Approchez du million de jetons et les coûts de mémoire et de latence deviennent la dépense dominante du modèle. C'est pourquoi la plupart des promesses de « long contexte » s'accompagnent d'une note en bas de page : la fenêtre existe, mais la remplir est lent et coûteux, et la précision se dégrade souvent au milieu des entrées très longues.

Chaque contournement que vous utilisez déjà est une réponse à ce mur. Le découpage des documents, la récupération par embeddings, les chaînes de résumé, les fenêtres glissantes : autant de moyens astucieux d'éviter de gaver le modèle d'un coup.

Ce que « sous-quadratique » signifie vraiment

Une architecture sous-quadratique change la façon dont le calcul croît avec la longueur. Au lieu d'évoluer en N fois N, le travail évolue plus près de N, ou de N fois le logarithme de N. La promesse pratique est simple : dix fois plus de contexte devrait coûter quelque chose de proche de dix fois plus, pas cent fois plus.

Il n'existe pas de recette unique. Le paysage de recherche en 2026 comprend plusieurs familles :

Les modèles à espace d'états comme Mamba, qui compriment l'historique dans un état courant de taille fixe à coût linéaire. Rapides et légers en mémoire, mais historiquement plus faibles pour extraire un fait exact d'une position arbitraire.
Les variantes d'attention linéaire comme RWKV, Gated Linear Attention et Delta Networks, qui reformulent l'attention pour ne jamais construire la matrice complète de paires.
Les modèles hybrides qui entremêlent quelques couches d'attention exacte avec de nombreuses couches récurrentes bon marché, équilibrant rappel précis et efficacité.
Les approches de sélection éparse, le camp auquel appartient SubQ.

Le mécanisme de SubQ, qu'il nomme attention éparse sous-quadratique, utilise une sélection dépendante du contenu. Plutôt que de comparer un jeton de requête à toutes les positions, le modèle sélectionne d'abord les positions qui comptent réellement, puis calcule l'attention exacte uniquement sur cette liste restreinte. L'entreprise rapporte une baisse du calcul d'attention de près de 1 000 fois par rapport à un transformeur standard à 12 millions de jetons, et une vitesse environ 52 fois supérieure à FlashAttention à un million de jetons.

Le choix de conception intéressant est qu'il ne s'agit pas de pure compression. En conservant l'attention exacte sur les positions sélectionnées, l'approche cherche à préserver la récupération précise où les modèles à espace d'états peinent, tout en évitant la grande majorité des comparaisons non pertinentes.

Pourquoi le long contexte surpasse la récupération pour certaines tâches

Si un modèle peut contenir 12 millions de jetons à bas coût, une grande partie de l'architecture actuelle devient optionnelle. Songez à ce que couvre cette portée : une base de code entière, des années d'historique de support client, un jeu complet de contrats, ou un trimestre entier de documentation interne, le tout dans l'invite d'un seul coup.

L'avantage sur la génération augmentée par récupération est que rien n'est pré-découpé et rien n'est manqué à la frontière. La récupération ne peut faire remonter que ce que sa recherche de similarité classe en haut. Un modèle qui raisonne sur l'ensemble du corpus peut relier une clause de la page 3 à une note de bas de page de la page 900 sans que personne ait à anticiper ce lien. Pour des tâches comme le recoupement de documents juridiques, l'audit de journaux volumineux, ou le raisonnement sur une base de code tentaculaire, c'est une vraie différence de capacité, pas seulement une économie.

Cela ne tue pas la récupération. Pour des bases de connaissances mesurées en milliards de jetons, il faut toujours une couche de récupération pour restreindre le champ. Mais la ligne de partage se déplace. Des charges de travail qui exigeaient hier une base vectorielle et une chaîne de découpage pourraient demain tenir dans une seule fenêtre de contexte.

La liste du sceptique

La communauté de l'IA s'est divisée quelques heures après l'annonce de SubQ, et le scepticisme est sain. Les affirmations architecturales ont une longue histoire : spectaculaires dans un billet de lancement, ordinaires sous test indépendant. Avant de tout replanifier, pesez ceci :

Les benchmarks indépendants. Un chiffre de 92 pour cent de précision ne vaut pas grand-chose tant que quelqu'un d'extérieur ne le reproduit pas sur des tests publics et non contaminés. Interrogez précisément sur la récupération en profondeur, pas seulement sur les moyennes.
Le rappel aux extrêmes. Beaucoup d'architectures efficaces excellent à 100 000 jetons et s'effondrent discrètement à 10 millions. Exigez des résultats d'aiguille dans une botte de foin sur toute la fenêtre annoncée.
La qualité, pas seulement la vitesse. Un coût plus bas est facile si la qualité baisse. La vraie question est de savoir si les modèles sous-quadratiques égalent le raisonnement du transformeur, pas s'ils sont plus rapides.
La maturité de l'écosystème. Les transformeurs disposent d'années d'outillage, de recettes d'ajustement fin et d'infrastructure de service. Une nouvelle architecture commence ce parcours de zéro.

La position honnête est que l'attention sous-quadratique est l'une des directions de recherche les plus prometteuses depuis des années, et qu'un seul lancement de produit ne tranche rien. Considérez SubQ comme un signal de la direction du domaine, pas comme un outil fini vers lequel migrer ce trimestre.

Ce que cela signifie pour votre entreprise

Vous n'avez pas besoin d'adopter une architecture expérimentale pour profiter de ce virage. Les mesures pratiques consistent à rester flexible :

Abstrayez votre couche de modèle. Si votre application dialogue avec un modèle via une passerelle ou une interface mince plutôt que des appels codés en dur, remplacer plus tard par un modèle long contexte moins cher devient un changement de configuration, pas une réécriture.
Réexaminez les problèmes abandonnés pour des raisons de coût. Certains cas d'usage ont été mis de côté parce que fournir assez de contexte coûtait trop cher. Tenez une liste. À mesure que le contexte devient moins cher, cette liste devient un arriéré de fonctionnalités à nouveau viables.
Ne sur-concevez pas la récupération prématurément. Si votre corpus tient déjà confortablement dans les fenêtres de long contexte actuelles, une chaîne élaborée de découpage et de reclassement résout peut-être un problème que vous n'avez pas encore.
Surveillez le coût par jeton utile, pas la taille annoncée de la fenêtre. Une fenêtre de 12 millions de jetons n'a de valeur que si son usage est abordable et précis. Mesurez le prix du contexte que vous consommez réellement.

En conclusion

Le coût quadratique du transformeur a silencieusement façonné chaque décision de produit d'IA depuis des années, du découpage des documents au prix d'une longue invite. Les architectures sous-quadratiques, qu'il s'agisse de SubQ précisément ou d'un de ses rivaux, visent à lever cette contrainte, et une fenêtre de 12 millions de jetons change ce qui vaut la peine d'être tenté.

La bonne posture est une patience éclairée. Construisez des systèmes capables d'adopter un meilleur modèle quand il fait ses preuves, gardez prêt un arriéré d'idées avides de contexte, et jugez la nouvelle vague sur des preuves indépendantes plutôt que sur les chiffres du jour de lancement. Le mur quadratique a défini les limites de l'IA pratique pendant neuf ans. Il est enfin mis à l'épreuve, et cela mérite une attention soutenue.

Chez Noqta, nous aidons les entreprises à concevoir des systèmes d'IA qui restent adaptables à mesure que les modèles sous-jacents évoluent. Si vous voulez bâtir sur une base qui survit au prochain virage architectural, discutons-en.