Token Fusion: Uniendo la Poda y Fusión de Tokens para Vision Transformers Eficientes

1. Introducción y Visión General

Los Vision Transformers (ViTs) han revolucionado la visión por computadora, pero sufren un alto coste computacional debido a la complejidad cuadrática de la autoatención con respecto al número de tokens de entrada. Este artículo, Token Fusion: Cerrando la Brecha entre la Poda y la Fusión de Tokens, presenta Token Fusion (ToFu), un método híbrido que elige dinámicamente entre podar y fusionar tokens basándose en el comportamiento del modelo para optimizar las compensaciones entre eficiencia y precisión.

La idea central es que ni la poda (descartar tokens) ni la fusión (promediar tokens) son universalmente óptimas. El artículo propone una forma fundamentada de seleccionar la operación apropiada por capa, junto con una novedosa técnica de fusión llamada MLERP (Multi-token Linear intERPolation) para abordar los problemas de desplazamiento de distribución en la fusión por promedio estándar.

2. Metodología Central: Token Fusion (ToFu)

ToFu se basa en el análisis de la respuesta de un modelo a entradas interpoladas, determinando su idoneidad para fusionar o podar.

2.1. El Dilema de la Poda frente a la Fusión

Los autores identifican un criterio clave: la linealidad del modelo. Si una capa del modelo responde de forma casi lineal a entradas interpoladas (por ejemplo, $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), fusionar tokens similares mediante promediado es efectivo y preserva la información. Sin embargo, en capas tempranas/profundas no lineales (como se visualiza en su Figura 1), la interpolación lineal en el espacio de entrada conduce a salidas altamente no lineales, haciendo problemática la fusión por promedio y pudiendo causar desplazamientos de distribución. En tales casos, podar los tokens menos importantes es una alternativa más segura, aunque con mayor pérdida de información.

2.2. El Marco de Trabajo ToFu

ToFu opera por bloque transformer:

Puntuación de Importancia de Tokens: Asigna una puntuación de importancia a cada token (por ejemplo, basada en la norma de atención o el gradiente).
Evaluación de Linealidad: Evalúa la linealidad aproximada de la capa, a menudo derivada empíricamente o mediante una sonda ligera.
Operación Adaptativa: Para una proporción objetivo de reducción de tokens:
- En regiones de alta linealidad: Fusionar los tokens menos importantes con sus vecinos importantes más similares.
- En regiones de baja linealidad: Podar directamente los tokens menos importantes.

Esto crea un pipeline de compresión dinámico y consciente del contexto.

2.3. MLERP: Fusión que Preserva la Norma

Para mejorar el simple promediado, los autores proponen MLERP, una adaptación de la Interpolación Lineal Esférica (SLERP) para fusionar $K$ tokens. Para tokens $t_1, t_2, ..., t_K$ con normas $n_i = ||t_i||$, MLERP primero interpola direcciones en la esfera unitaria y luego escala por un promedio ponderado de las normas originales:

$t_{\text{fusionado}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

donde $w_i$ son pesos basados en la importancia. Esto preserva la distribución estadística de las normas de las características, mitigando el desplazamiento de distribución causado por el promediado ingenuo y conduciendo a un rendimiento más estable, especialmente en regímenes no lineales.

3. Detalles Técnicos y Formulación Matemática

El artículo formaliza el problema de reducción de tokens. Sea una capa con $N$ tokens de entrada $T = \{t_1, ..., t_N\}$. El objetivo es producir un conjunto reducido $T'$ con $M < N$ tokens.

Ecuaciones Clave:

Puntuación de Importancia: $I(t_i) = ||\text{Attn}(t_i)||_1$ o una medida basada en gradiente.
Métrica de Similitud: Típicamente la similitud coseno $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
Métrica de Linealidad ($\mathcal{L}$): Medida por la desviación de las salidas de la capa respecto a la interpolación lineal de las entradas. Un $\mathcal{L}$ bajo favorece la fusión; un $\mathcal{L}$ alto favorece la poda.

El algoritmo ToFu puede aplicarse a modelos preentrenados sin ajuste fino (zero-shot) o mejorarse con un entrenamiento ligero.

4. Resultados Experimentales y Rendimiento

Los autores evalúan ToFu en tareas de clasificación de imágenes (ImageNet con ViT-B/16, DeiT) y generación de imágenes (modelos de difusión latente).

Puntos Destacados Clave del Rendimiento

Clasificación: ToFu logra una mejor compensación entre precisión y FLOPs que los métodos de poda (por ejemplo, DynamicViT) o fusión (ToMe) por separado. Por ejemplo, con una reducción del 40% en FLOPs, ToFu pierde <0.5% de precisión top-1 en ImageNet, superando a ToMe en ~0.3%.
Generación de Imágenes: En Stable Diffusion, ToFu mantiene una mayor fidelidad visual (medida por FID) con un coste computacional reducido en comparación con ToMe, especialmente al reducir un gran número de tokens. La fusión MLERP muestra una ventaja más clara en tareas de generación donde la distribución de salida es crítica.
Ablación: Se demuestra que la estrategia adaptativa (elegir fusionar/podar) es superior a usar cualquiera de las operaciones de forma exclusiva en todas las capas. MLERP supera consistentemente a la fusión por promedio.

Descripción del Gráfico (Basado en la Figura 1 del Artículo): La figura ilustra la no linealidad de las capas ViT. Dos puntos de características de entrada (x1, x2) se interpolan linealmente (línea de color). Se trazan las salidas (f1-f4) de cuatro capas MLP diferentes dentro del ViT. Las salidas de las capas MLP tempranas y tardías (f1, f4) muestran una desviación significativa de una línea recta, indicando una fuerte no linealidad. El promedio de las dos entradas (estrella púrpura) se mapea a un punto de salida lejos del promedio de las salidas, demostrando visualmente por qué la fusión por promedio puede fallar en capas no lineales.

5. Marco de Análisis y Ejemplo de Caso

Caso: Aplicar ToFu a un ViT Preentrenado para Despliegue en Dispositivos de Borde

Escenario: Un desarrollador necesita ejecutar un modelo ViT-B en un dispositivo móvil para clasificación de imágenes en tiempo real. El modelo completo es demasiado lento.

Aplicación del Marco:

Perfilado: Ejecutar un pequeño conjunto de datos de calibración a través del modelo. Para cada bloque transformer, calcular la métrica de linealidad $\mathcal{L}$ muestreando pares de tokens y verificando el error de interpolación de salida.
Mapa de Estrategia: Crear un perfil: Bloques 1-3 (baja linealidad) → preferir poda. Bloques 4-8 (alta linealidad) → preferir fusión MLERP. Bloques finales (baja linealidad) → preferir poda.
Configuración: Establecer un presupuesto global de reducción de tokens (por ejemplo, 35%). Aplicar poda en bloques de baja linealidad y fusión MLERP en bloques de alta linealidad, respetando los presupuestos por bloque derivados de las puntuaciones de importancia.
Evaluación: Desplegar el modelo comprimido. El enfoque adaptativo asegura una caída mínima de precisión en comparación con un método único para todos, ya que evita fusiones agresivas en capas no lineales sensibles.

Este ejemplo demuestra la utilidad práctica de ToFu como un marco de compresión estructurado, no solo como un algoritmo monolítico.

6. Aplicaciones Futuras y Direcciones de Investigación

Transformers Multimodales: Extender ToFu a transformers de video, audio o multimodales (por ejemplo, CLIP, Flamingo) donde la dinámica de tokens es más compleja.
Co-diseño Consciente del Hardware: Optimizar el algoritmo de decisión de ToFu (podar/fusionar) y la implementación de MLERP para aceleradores de IA específicos (NPUs, GPUs) para maximizar la aceleración real.
Integración con Otras Técnicas: Combinar ToFu con cuantización, destilación de conocimiento o mecanismos de atención eficientes (como Linformer) para obtener ganancias de eficiencia compuestas.
Búsqueda Automatizada de Hiperparámetros: Usar búsqueda de arquitectura neuronal (NAS) o aprendizaje por refuerzo para determinar automáticamente la proporción óptima de poda/fusión por capa y el umbral de linealidad.
Más Allá de la Visión: Explorar su eficacia en Modelos de Lenguaje Grandes (LLMs) para compresión de secuencias, aunque la semántica de los tokens difiere significativamente.

7. Referencias

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. Análisis Experto y Perspectivas Críticas

Perspectiva Central: ToFu no es solo otra herramienta de compresión; es un reconocimiento formal de que las capas de los transformers son heterogéneas. Tratar todas las capas con el mismo primitivo de compresión es ingenuo. La brillantez del artículo radica en su enfoque diagnóstico: medir la linealidad de la capa para prescribir la "cirugía" correcta (podar o fusionar). Esto recuerda a cómo los compiladores modernos perfilan el código para aplicar optimizaciones, un nivel de sofisticación que a menudo falta en la investigación sobre eficiencia en ML.

Flujo Lógico: El argumento es convincente: 1) Mostrar que la fusión por promedio falla en capas no lineales (Fig. 1). 2) Proponer una métrica para detectar este modo de fallo (linealidad). 3) Usar la métrica para dirigir los tokens. 4) Corregir la operación fallida (fusión por promedio) con MLERP. El flujo desde la identificación del problema hasta una solución de múltiples componentes es limpio y lógico.

Fortalezas y Debilidades:
Fortalezas: El enfoque híbrido es teóricamente sólido y empíricamente validado en diversas tareas. MLERP es una solución simple pero inteligente a un problema real (colapso de la norma). La aplicabilidad zero-shot es una ventaja práctica mayor para desplegar modelos existentes.
Debilidades: El artículo subestima ligeramente la sobrecarga de la "evaluación de linealidad". ¿Es un perfil precalculado (estático) o se calcula sobre la marcha (sobrecarga dinámica)? Los beneficios de MLERP, aunque claros, parecen modestos en clasificación; su verdadero valor parece más pronunciado en tareas generativas, alineándose con hallazgos de la literatura de modelos de difusión donde la distribución de salida es primordial. La comparación, aunque justa, podría ser más agresiva contra los métodos de cuantización post-entrenamiento de última generación que ofrecen beneficios ortogonales.

Perspectivas Accionables: Para profesionales: Adopten inmediatamente ToFu/MLERP como su método de primera línea para la reducción de tokens en ViTs, especialmente para tareas generativas. Sustituye a ToMe como la estrategia de fusión por defecto. Para investigadores: El paradigma de "compresión consciente de la capa" es la conclusión clave. El trabajo futuro debería centrarse en automatizar la detección de regiones del modelo amigables o sensibles a la compresión, quizás inspirándose en trabajos sobre poda de redes en CNNs o el análisis del colapso de modos en GANs como CycleGAN. La próxima frontera es construir modelos que sean inherentemente eficientes por diseño, utilizando las ideas de tales estudios diagnósticos para informar la búsqueda de arquitecturas, yendo más allá de la mera compresión a posteriori.