Moonshot AI introduit les Attention Residuals, une refonte majeure de l'architecture Transformer

Moonshot AI, le laboratoire chinois derrière le chatbot Kimi et sa famille de grands modèles de langage, a introduit une nouvelle technique architecturale appelée Attention Residuals (AttnRes) qui repense un des composants les plus fondamentaux du Transformer — la connexion résiduelle. La recherche, publiée le 15 mars 2026, a déjà suscité une attention considérable dans la communauté IA, Elon Musk la qualifiant de "travail impressionnant".

Que sont les Attention Residuals ?

Depuis l'introduction du Transformer en 2017, les connexions résiduelles constituent le mécanisme standard pour transmettre l'information entre les couches. Chaque couche ajoute simplement sa sortie au total cumulé de toutes les couches précédentes — une accumulation fixe et uniforme qui traite chaque couche antérieure de manière égale.

Le problème, comme l'expliquent les chercheurs de Moonshot AI, est que cette approche provoque une croissance de la magnitude des états cachés avec la profondeur, diluant progressivement la contribution des couches précoces. Les signaux importants de la couche 2 ou de la couche 20 se retrouvent ensevelis sous des dizaines d'additions successives — un phénomène qu'ils appellent la dilution PreNorm.

Les Attention Residuals remplacent cette accumulation fixe par un mécanisme d'attention léger en profondeur. Au lieu d'ajouter aveuglément toutes les sorties précédentes, chaque couche utilise une attention softmax pour récupérer sélectivement l'information des couches les plus pertinentes.

Points clés

Remplacement direct des connexions résiduelles standard — aucune modification du reste de l'architecture nécessaire
Block AttnRes partitionne les couches en blocs compressés, réduisant la complexité mémoire de O(Ld) à O(Nd)
Seulement 2 % de paramètres supplémentaires — impact minimal sur la taille du modèle
Intégré dans Kimi Linear, l'architecture mixture-of-experts de Moonshot AI avec 48 milliards de paramètres totaux et 3 milliards de paramètres activés

Résultats sur les benchmarks

Pré-entraîné sur 1,4 billion de tokens, le modèle Kimi Linear amélioré avec AttnRes montre des gains constants sur les principaux benchmarks :

Benchmark	Avant	Après	Gain
MMLU	73,5	74,6	+1,1
GPQA-Diamond	36,9	44,4	+7,5
BBH	76,3	78,0	+1,7
Math	53,5	57,1	+3,6
HumanEval	59,1	62,2	+3,1
MBPP	72,0	73,9	+1,9

L'amélioration la plus frappante concerne GPQA-Diamond, un benchmark de raisonnement scientifique de niveau doctoral, avec un bond de 7,5 points. Les benchmarks de programmation et de mathématiques affichent également des gains significatifs, suggérant que la récupération sélective entre couches bénéficie particulièrement aux tâches de raisonnement complexe.

Pourquoi est-ce important ?

Les connexions résiduelles sont restées essentiellement inchangées depuis leur introduction dans ResNet en 2015, puis leur adoption par le papier Transformer original. Il s'agit de l'une des premières tentatives réussies de repenser fondamentalement la circulation de l'information entre les couches dans les réseaux profonds.

L'approche est particulièrement significative car elle réalise ces gains sans recourir au scaling par la force brute. Alors que la tendance du secteur est d'entraîner des modèles toujours plus grands sur davantage de données, les Attention Residuals démontrent que les innovations architecturales peuvent encore débloquer des améliorations significatives pour un coût quasi nul.

Code ouvert et réaction du secteur

Moonshot AI a publié le code sur GitHub, rendant AttnRes accessible à la communauté de recherche. Sa nature de remplacement direct signifie qu'il pourrait potentiellement être adopté par tout modèle basé sur l'architecture Transformer, des modèles de langage aux Vision Transformers.

La recherche a généré un buzz considérable sur les réseaux sociaux, les chercheurs et ingénieurs en IA soulignant l'élégance de traiter la profondeur comme une dimension séquentielle — établissant un parallèle entre le fonctionnement de l'attention sur les tokens dans une séquence et celui d'AttnRes sur les couches dans un réseau.

Et maintenant ?

Avec le code open source disponible, la question est de savoir si les grands laboratoires adopteront AttnRes dans leurs modèles de prochaine génération. Le surcoût minimal et les gains constants en font un ajout attractif, particulièrement pour les modèles poussant vers des architectures plus profondes où la dilution PreNorm devient plus prononcée.

Source : Moonshot AI — Attention Residuals