Token Fusion: Die Brücke zwischen Token-Pruning und -Merging für effiziente Vision Transformer

1. Einführung & Überblick

Vision Transformer (ViTs) haben das Computer Vision revolutioniert, leiden jedoch unter hohen Rechenkosten aufgrund der quadratischen Komplexität der Self-Attention in Bezug auf die Anzahl der Eingabe-Tokens. Diese Arbeit, Token Fusion: Bridging the Gap between Token Pruning and Token Merging, stellt Token Fusion (ToFu) vor, eine hybride Methode, die basierend auf dem Modellverhalten dynamisch zwischen dem Pruning (Ausdünnen) und Merging (Zusammenführen) von Tokens wählt, um den Effizienz-Genauigkeits-Kompromiss zu optimieren.

Die zentrale Erkenntnis ist, dass weder Pruning (Verwerfen von Tokens) noch Merging (Mitteln von Tokens) universell optimal ist. Die Arbeit schlägt einen prinzipienbasierten Weg vor, um pro Layer die geeignete Operation auszuwählen, gekoppelt mit einer neuartigen Merging-Technik namens MLERP (Multi-token Linear intERPolation), um Probleme mit Distributionsverschiebungen beim Standard-Durchschnitts-Merging zu adressieren.

2. Kernmethodik: Token Fusion (ToFu)

ToFu basiert auf der Analyse der Reaktion eines Modells auf interpolierte Eingaben, um dessen Eignung für Merging oder Pruning zu bestimmen.

2.1. Das Pruning-vs.-Merging-Dilemma

Die Autoren identifizieren ein Schlüsselkriterium: Modelllinearität. Wenn eine Modellschicht nahezu linear auf interpolierte Eingaben reagiert (z.B. $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), ist das Zusammenführen ähnlicher Tokens durch Mitteln effektiv und erhält die Information. In frühen/tieferen nicht-linearen Schichten (wie in ihrer Abbildung 1 visualisiert) führt jedoch lineare Interpolation im Eingaberaum zu stark nicht-linearen Ausgaben, was Durchschnitts-Merging problematisch macht und potenziell Distributionsverschiebungen verursacht. In solchen Fällen ist das Pruning weniger wichtiger Tokens eine sicherere, wenn auch verlustbehaftetere Alternative.

2.2. Das ToFu-Framework

ToFu arbeitet pro Transformer-Block:

Token-Wichtigkeitsbewertung: Weist jedem Token einen Wichtigkeitswert zu (z.B. basierend auf der Attention-Norm oder dem Gradienten).
Linearitätsbewertung: Bewertet die approximative Linearität der Schicht, oft empirisch oder über eine leichtgewichtige Sonde ermittelt.
Adaptive Operation: Für ein Ziel-Token-Reduktionsverhältnis:
- In hochlinearen Regionen: Führe die unwichtigsten Tokens mit ihren ähnlichsten, wichtigen Nachbarn zusammen.
- In geringlinearen Regionen: Dünne die unwichtigsten Tokens direkt aus.

Dies erzeugt eine dynamische, kontextbewusste Kompressionspipeline.

2.3. MLERP: Normerhaltendes Merging

Um einfaches Mitteln zu verbessern, schlagen die Autoren MLERP vor, eine Anpassung der Spherical Linear Interpolation (SLERP) für das Zusammenführen von $K$ Tokens. Für Tokens $t_1, t_2, ..., t_K$ mit Normen $n_i = ||t_i||$ interpoliert MLERP zuerst Richtungen auf der Einheitssphäre und skaliert dann mit einem gewichteten Durchschnitt der ursprünglichen Normen:

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

wobei $w_i$ gewichtungsbasierte Gewichte sind. Dies erhält die statistische Normverteilung der Features, mildert die durch naives Mitteln verursachte Distributionsverschiebung und führt zu stabilerer Leistung, insbesondere in nicht-linearen Regimen.

3. Technische Details & Mathematische Formulierung

Die Arbeit formalisiert das Token-Reduktionsproblem. Eine Schicht habe $N$ Eingabe-Tokens $T = \{t_1, ..., t_N\}$. Das Ziel ist es, einen reduzierten Satz $T'$ mit $M < N$ Tokens zu erzeugen.

Schlüsselgleichungen:

Wichtigkeitswert: $I(t_i) = ||\text{Attn}(t_i)||_1$ oder ein gradientenbasiertes Maß.
Ähnlichkeitsmetrik: Typischerweise Kosinusähnlichkeit $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
Linearitätsmetrik ($\mathcal{L}$): Gemessen durch die Abweichung der Schichtausgaben von der linearen Interpolation der Eingaben. Ein niedriges $\mathcal{L}$ begünstigt Merging; ein hohes $\mathcal{L}$ begünstigt Pruning.

Der ToFu-Algorithmus kann auf vortrainierte Modelle ohne Feinabstimmung (Zero-Shot) angewendet oder durch leichtes Training verbessert werden.

4. Experimentelle Ergebnisse & Leistung

Die Autoren evaluieren ToFu für Bildklassifikation (ImageNet mit ViT-B/16, DeiT) und Bildgenerierung (latente Diffusionsmodelle).

Wesentliche Leistungshighlights

Klassifikation: ToFu erreicht einen besseren Genauigkeit-vs.-FLOPs-Kompromiss als eigenständige Pruning- (z.B. DynamicViT) oder Merging-Methoden (ToMe). Beispielsweise verliert ToFu bei 40% FLOPs-Reduktion <0,5% Top-1-Genauigkeit auf ImageNet und übertrifft ToMe um ~0,3%.
Bildgenerierung: In Stable Diffusion bewahrt ToFu bei reduzierten Rechenkosten im Vergleich zu ToMe eine höhere visuelle Qualität (gemessen durch FID), insbesondere bei der Reduktion vieler Tokens. MLERP-Merging zeigt einen klareren Vorteil bei Generierungsaufgaben, bei denen die Ausgabeverteilung kritisch ist.
Ablation: Die adaptive Strategie (Wahl zwischen Merge/Prune) erweist sich als überlegen gegenüber der ausschließlichen Verwendung einer der beiden Operationen über alle Schichten hinweg. MLERP übertrifft durchgängig das Durchschnitts-Merging.

Diagrammbeschreibung (basierend auf Abbildung 1 der Arbeit): Die Abbildung veranschaulicht die Nichtlinearität von ViT-Schichten. Zwei Eingabe-Feature-Punkte (x1, x2) werden linear interpoliert (farbige Linie). Die Ausgaben (f1-f4) von vier verschiedenen MLP-Schichten innerhalb des ViT sind aufgetragen. Die frühen und späten MLP-Ausgaben (f1, f4) zeigen eine signifikante Abweichung von einer geraden Linie, was auf starke Nichtlinearität hinweist. Der Durchschnitt der beiden Eingaben (lila Stern) wird auf einen Ausgabepunkt abgebildet, der weit vom Durchschnitt der Ausgaben entfernt ist, und demonstriert visuell, warum Durchschnitts-Merging in nicht-linearen Schichten scheitern kann.

5. Analyseframework & Fallbeispiel

Fall: Anwendung von ToFu auf einen vortrainierten ViT für Edge-Bereitstellung

Szenario: Ein Entwickler muss ein ViT-B-Modell auf einem Mobilgerät für Echtzeit-Bildklassifikation ausführen. Das vollständige Modell ist zu langsam.

Framework-Anwendung:

Profiling: Führe einen kleinen Kalibrierungsdatensatz durch das Modell. Berechne für jeden Transformer-Block die Linearitätsmetrik $\mathcal{L}$, indem Token-Paare abgetastet und der Ausgabe-Interpolationsfehler überprüft wird.
Strategiekarte: Erstelle ein Profil: Blöcke 1-3 (geringe Linearität) → bevorzuge Pruning. Blöcke 4-8 (hohe Linearität) → bevorzuge MLERP-Merging. Letzte Blöcke (geringe Linearität) → bevorzuge Pruning.
Konfiguration: Setze ein globales Token-Reduktionsbudget (z.B. 35%). Wende Pruning in geringlinearen Blöcken und MLERP-Merging in hochlinearen Blöcken an, unter Beachtung der aus den Wichtigkeitswerten abgeleiteten pro-Block-Budgets.
Evaluation: Setze das komprimierte Modell ein. Der adaptive Ansatz gewährleistet einen minimalen Genauigkeitsverlust im Vergleich zu einer Einheitslösung, da er aggressives Merging in sensiblen nicht-linearen Schichten vermeidet.

Dieses Beispiel demonstriert den praktischen Nutzen von ToFu als strukturiertes Kompressionsframework, nicht nur als monolithischer Algorithmus.

6. Zukünftige Anwendungen & Forschungsrichtungen

Multimodale Transformer: Erweiterung von ToFu auf Video-, Audio- oder multimodale Transformer (z.B. CLIP, Flamingo), bei denen die Token-Dynamik komplexer ist.
Hardwarebewusste Co-Entwicklung: Optimierung des ToFu-Entscheidungsalgorithmus (Prune/Merge) und der MLERP-Implementierung für spezifische KI-Beschleuniger (NPUs, GPUs), um den realen Geschwindigkeitsgewinn zu maximieren.
Integration mit anderen Techniken: Kombination von ToFu mit Quantisierung, Knowledge Distillation oder effizienten Attention-Mechanismen (wie Linformer) für kombinierte Effizienzgewinne.
Automatisierte Hyperparametersuche: Verwendung von Neural Architecture Search (NAS) oder Reinforcement Learning, um automatisch das optimale Pruning/Merging-Verhältnis pro Schicht und den Linearitätsschwellenwert zu bestimmen.
Jenseits von Vision: Erforschung der Wirksamkeit in Large Language Models (LLMs) für Sequenzkompression, obwohl sich die Token-Semantik erheblich unterscheidet.

7. Referenzen

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. Expertenanalyse & Kritische Einblicke

Kernaussage: ToFu ist nicht nur ein weiteres Kompressionswerkzeug; es ist eine formale Anerkennung, dass Transformer-Schichten heterogen sind. Alle Schichten mit derselben Kompressionsprimitive zu behandeln, ist naiv. Die Brillanz der Arbeit liegt in ihrem diagnostischen Ansatz – dem Messen der Schichtlinearität, um die richtige "Operation" (Prune oder Merge) zu verschreiben. Dies erinnert an moderne Compiler, die Code profilieren, um Optimierungen anzuwenden, ein Raffinessegrad, der in der ML-Effizienzforschung oft fehlt.

Logischer Ablauf: Das Argument ist überzeugend: 1) Zeigen, dass Durchschnitts-Merging in nicht-linearen Schichten scheitert (Abb. 1). 2) Eine Metrik vorschlagen, um diesen Fehlermodus zu erkennen (Linearität). 3) Die Metrik nutzen, um Tokens zu routen. 4) Die fehlerhafte Operation (Durchschnitts-Merge) mit MLERP reparieren. Der Ablauf von der Problemidentifikation zur mehrkomponentigen Lösung ist sauber und logisch.

Stärken & Schwächen:
Stärken: Der hybride Ansatz ist theoretisch fundiert und empirisch über verschiedene Aufgaben hinweg validiert. MLERP ist eine einfache, aber clevere Lösung für ein reales Problem (Normkollaps). Die Zero-Shot-Anwendbarkeit ist ein großer praktischer Vorteil für den Einsatz bestehender Modelle.
Schwächen: Die Arbeit verkauft den Overhead der "Linearitätsbewertung" etwas unter Wert. Ist es ein vorberechnetes Profil (statisch) oder wird es on-the-fly berechnet (dynamischer Overhead)? Die Vorteile von MLERP, obwohl klar, erscheinen in der Klassifikation moderat; sein wahrer Wert scheint in Generierungsaufgaben ausgeprägter zu sein, was mit Erkenntnissen aus der Diffusionsmodell-Literatur übereinstimmt, wo die Ausgabeverteilung entscheidend ist. Der Vergleich, obwohl fair, könnte aggressiver gegenüber modernsten Post-Training-Quantisierungsmethoden sein, die orthogonale Vorteile bieten.

Umsetzbare Erkenntnisse: Für Praktiker: Setzen Sie ToFu/MLERP sofort als Ihre erste Wahl für die Token-Reduktion bei ViTs ein, insbesondere für Generierungsaufgaben. Es ersetzt ToMe als Standard-Merging-Strategie. Für Forscher: Das Paradigma der "schichtbewussten Kompression" ist die zentrale Erkenntnis. Zukünftige Arbeiten sollten sich auf die Automatisierung der Erkennung von kompressionsfreundlichen vs. kompressionssensiblen Modellregionen konzentrieren, vielleicht inspiriert von Arbeiten zum Netzwerk-Pruning in CNNs oder der Analyse von Mode Collapse in GANs wie CycleGAN. Die nächste Grenze ist der Aufbau von inhärent effizienten Modellen durch Design, wobei Erkenntnisse aus solchen diagnostischen Studien die Architektursuche informieren, über reine nachträgliche Kompression hinaus.