Token Fusion : Combiner l'Élagage et la Fusion de Tokens pour des Vision Transformers Efficaces

1. Introduction & Aperçu

Les Vision Transformers (ViTs) ont révolutionné la vision par ordinateur mais souffrent d'un coût computationnel élevé dû à la complexité quadratique de l'auto-attention par rapport au nombre de tokens d'entrée. Cet article, Token Fusion : Combler l'écart entre l'élagage et la fusion de tokens, présente Token Fusion (ToFu), une méthode hybride qui choisit dynamiquement entre l'élagage et la fusion de tokens en fonction du comportement du modèle pour optimiser le compromis efficacité-précision.

L'idée centrale est qu'aucune des deux opérations, l'élagage (suppression de tokens) ou la fusion (moyenne de tokens), n'est universellement optimale. L'article propose une méthode rigoureuse pour sélectionner l'opération appropriée par couche, couplée à une nouvelle technique de fusion appelée MLERP (Multi-token Linear intERPolation) pour résoudre les problèmes de décalage de distribution dans la fusion par moyenne standard.

2. Méthodologie centrale : Token Fusion (ToFu)

ToFu est basé sur l'analyse de la réponse d'un modèle à des entrées interpolées, déterminant son aptitude à la fusion ou à l'élagage.

2.1. Le dilemme Élagage vs. Fusion

Les auteurs identifient un critère clé : la linéarité du modèle. Si une couche de modèle répond de manière quasi linéaire à des entrées interpolées (par exemple, $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), la fusion de tokens similaires par moyenne est efficace et préserve l'information. Cependant, dans les couches non linéaires précoces/profondes (comme visualisé dans leur Figure 1), l'interpolation linéaire dans l'espace d'entrée conduit à des sorties fortement non linéaires, rendant la fusion par moyenne problématique et pouvant causer des décalages de distribution. Dans de tels cas, l'élagage des tokens les moins importants est une alternative plus sûre, bien que plus destructrice.

2.2. Le cadre ToFu

ToFu opère par bloc de transformer :

Attribution d'un score d'importance : Attribue un score d'importance à chaque token (par exemple, basé sur la norme d'attention ou le gradient).
Évaluation de la linéarité : Évalue la linéarité approximative de la couche, souvent dérivée empiriquement ou via une sonde légère.
Opération adaptative : Pour un ratio de réduction de tokens cible :
- Dans les régions de forte linéarité : Fusionner les tokens les moins importants avec leurs voisins importants les plus similaires.
- Dans les régions de faible linéarité : Élaguer directement les tokens les moins importants.

Cela crée un pipeline de compression dynamique et contextuel.

2.3. MLERP : Fusion préservant la norme

Pour améliorer la simple moyenne, les auteurs proposent MLERP, une adaptation de l'Interpolation Linéaire Sphérique (SLERP) pour fusionner $K$ tokens. Pour des tokens $t_1, t_2, ..., t_K$ avec des normes $n_i = ||t_i||$, MLERP interpole d'abord les directions sur la sphère unité puis met à l'échelle par une moyenne pondérée des normes originales :

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

où $w_i$ sont des poids basés sur l'importance. Cela préserve la distribution statistique des normes des caractéristiques, atténuant le décalage de distribution causé par la moyenne naïve et conduisant à des performances plus stables, en particulier dans les régimes non linéaires.

3. Détails techniques & Formulation mathématique

L'article formalise le problème de réduction de tokens. Soit une couche avec $N$ tokens d'entrée $T = \{t_1, ..., t_N\}$. L'objectif est de produire un ensemble réduit $T'$ avec $M < N$ tokens.

Équations clés :

Score d'importance : $I(t_i) = ||\text{Attn}(t_i)||_1$ ou une mesure basée sur le gradient.
Métrique de similarité : Typiquement la similarité cosinus $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
Métrique de linéarité ($\mathcal{L}$) : Mesurée par l'écart des sorties de la couche par rapport à l'interpolation linéaire des entrées. Un $\mathcal{L}$ faible favorise la fusion ; un $\mathcal{L}$ élevé favorise l'élagage.

L'algorithme ToFu peut être appliqué à des modèles pré-entraînés sans réglage fin (zero-shot) ou amélioré avec un léger entraînement.

4. Résultats expérimentaux & Performances

Les auteurs évaluent ToFu sur des tâches de classification d'images (ImageNet avec ViT-B/16, DeiT) et de génération d'images (modèles de diffusion latente).

Points forts des performances

Classification : ToFu atteint un meilleur compromis précision vs. FLOPs que les méthodes d'élagage seul (par ex., DynamicViT) ou de fusion (ToMe). Par exemple, à 40% de réduction de FLOPs, ToFu perd <0,5% de précision top-1 sur ImageNet, surpassant ToMe d'environ ~0,3%.
Génération d'images : Dans Stable Diffusion, ToFu maintient une plus grande fidélité visuelle (mesurée par FID) à coût computationnel réduit par rapport à ToMe, en particulier lors de la réduction d'un grand nombre de tokens. La fusion MLERP montre un avantage plus net dans les tâches de génération où la distribution de sortie est critique.
Ablation : La stratégie adaptative (choix fusion/élagage) s'avère supérieure à l'utilisation exclusive d'une seule opération sur toutes les couches. MLERP surpasse systématiquement la fusion par moyenne.

Description du graphique (basée sur la Figure 1 de l'article) : La figure illustre la non-linéarité des couches ViT. Deux points de caractéristiques d'entrée (x1, x2) sont interpolés linéairement (ligne colorée). Les sorties (f1-f4) de quatre couches MLP différentes à l'intérieur du ViT sont tracées. Les sorties des MLP précoces et tardives (f1, f4) montrent un écart significatif par rapport à une ligne droite, indiquant une forte non-linéarité. La moyenne des deux entrées (étoile violette) correspond à un point de sortie loin de la moyenne des sorties, démontrant visuellement pourquoi la fusion par moyenne peut échouer dans les couches non linéaires.

5. Cadre d'analyse & Exemple de cas

Cas : Application de ToFu à un ViT pré-entraîné pour un déploiement en périphérie

Scénario : Un développeur doit exécuter un modèle ViT-B sur un appareil mobile pour une classification d'images en temps réel. Le modèle complet est trop lent.

Application du cadre :

Profilage : Exécuter un petit jeu de données de calibration à travers le modèle. Pour chaque bloc de transformer, calculer la métrique de linéarité $\mathcal{L}$ en échantillonnant des paires de tokens et en vérifiant l'erreur d'interpolation de sortie.
Carte de stratégie : Créer un profil : Blocs 1-3 (faible linéarité) → préférer l'élagage. Blocs 4-8 (forte linéarité) → préférer la fusion MLERP. Blocs finaux (faible linéarité) → préférer l'élagage.
Configuration : Définir un budget global de réduction de tokens (par ex., 35%). Appliquer l'élagage dans les blocs de faible linéarité et la fusion MLERP dans les blocs de forte linéarité, en respectant les budgets par bloc dérivés des scores d'importance.
Évaluation : Déployer le modèle compressé. L'approche adaptative garantit une baisse de précision minimale par rapport à une méthode universelle, car elle évite une fusion agressive dans les couches non linéaires sensibles.

Cet exemple démontre l'utilité pratique de ToFu en tant que cadre de compression structuré, et non seulement comme un algorithme monolithique.

6. Applications futures & Directions de recherche

Transformers multimodaux : Étendre ToFu aux transformers vidéo, audio ou multimodaux (par ex., CLIP, Flamingo) où la dynamique des tokens est plus complexe.
Co-conception matérielle : Optimiser l'algorithme de décision ToFu (élagage/fusion) et l'implémentation MLERP pour des accélérateurs IA spécifiques (NPU, GPU) afin de maximiser l'accélération réelle.
Intégration avec d'autres techniques : Combiner ToFu avec la quantification, la distillation de connaissances ou des mécanismes d'attention efficaces (comme Linformer) pour des gains d'efficacité cumulés.
Recherche automatique d'hyperparamètres : Utiliser la recherche d'architecture neuronale (NAS) ou l'apprentissage par renforcement pour déterminer automatiquement le ratio optimal d'élagage/fusion par couche et le seuil de linéarité.
Au-delà de la vision : Explorer son efficacité dans les grands modèles de langage (LLM) pour la compression de séquences, bien que la sémantique des tokens diffère significativement.

7. Références

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. Analyse experte & Perspectives critiques

Perspective centrale : ToFu n'est pas seulement un autre outil de compression ; c'est une reconnaissance formelle que les couches de transformer sont hétérogènes. Traiter toutes les couches avec la même primitive de compression est naïf. La brillance de l'article réside dans son approche diagnostique — mesurer la linéarité de la couche pour prescrire la bonne "chirurgie" (élagage ou fusion). Cela rappelle la façon dont les compilateurs modernes profilent le code pour appliquer des optimisations, un niveau de sophistication souvent absent dans la recherche sur l'efficacité du ML.

Enchaînement logique : L'argument est convaincant : 1) Montrer que la fusion par moyenne échoue dans les couches non linéaires (Fig. 1). 2) Proposer une métrique pour détecter ce mode d'échec (linéarité). 3) Utiliser la métrique pour router les tokens. 4) Corriger l'opération défaillante (fusion par moyenne) avec MLERP. Le passage de l'identification du problème à une solution multi-composants est clair et logique.

Forces & Faiblesses :
Forces : L'approche hybride est théoriquement solide et empiriquement validée sur plusieurs tâches. MLERP est une correction simple mais ingénieuse à un vrai problème (effondrement de la norme). L'applicabilité zero-shot est un avantage pratique majeur pour le déploiement de modèles existants.
Faiblesses : L'article minimise légèrement la surcharge de "l'évaluation de la linéarité". S'agit-il d'un profil pré-calculé (statique) ou calculé à la volée (surcharge dynamique) ? Les bénéfices de MLERP, bien que clairs, semblent modestes en classification ; sa vraie valeur semble plus prononcée dans les tâches génératives, ce qui correspond aux conclusions de la littérature sur les modèles de diffusion où la distribution de sortie est primordiale. La comparaison, bien qu'équitable, pourrait être plus agressive contre les méthodes de quantification post-entraînement de pointe qui offrent des bénéfices orthogonaux.

Perspectives actionnables : Pour les praticiens : Adoptez immédiatement ToFu/MLERP comme votre méthode de réduction de tokens de première intention pour les ViTs, en particulier pour les tâches génératives. Cela remplace ToMe comme stratégie de fusion par défaut. Pour les chercheurs : Le paradigme de "compression sensible à la couche" est le point clé à retenir. Les travaux futurs devraient se concentrer sur l'automatisation de la détection des régions du modèle favorables ou sensibles à la compression, s'inspirant peut-être des travaux sur l'élagage de réseaux dans les CNN ou de l'analyse de l'effondrement de mode dans les GAN comme CycleGAN. La prochaine frontière est de construire des modèles intrinsèquement efficaces par conception, en utilisant les insights de telles études diagnostiques pour guider la recherche d'architecture, au-delà de la simple compression a posteriori.