Token Fusion: Unindo Poda e Fusão de Tokens para Vision Transformers Eficientes

1. Introdução e Visão Geral

Os Vision Transformers (ViTs) revolucionaram a visão computacional, mas sofrem com alto custo computacional devido à complexidade quadrática da auto-atenção em relação ao número de tokens de entrada. Este artigo, Token Fusion: Unindo Poda e Fusão de Tokens, introduz o Token Fusion (ToFu), um método híbrido que escolhe dinamicamente entre podar e fundir tokens com base no comportamento do modelo para otimizar o compromisso eficiência-precisão.

A ideia central é que nem a poda (descartar tokens) nem a fusão (média de tokens) é universalmente ideal. O artigo propõe uma forma fundamentada de selecionar a operação apropriada por camada, aliada a uma nova técnica de fusão chamada MLERP (Multi-token Linear intERPolation) para abordar problemas de desvio de distribuição na fusão por média padrão.

2. Metodologia Central: Token Fusion (ToFu)

O ToFu é construído sobre a análise da resposta de um modelo a entradas interpoladas, determinando sua adequação para fusão ou poda.

2.1. O Dilema Poda vs. Fusão

Os autores identificam um critério-chave: a linearidade do modelo. Se uma camada do modelo responde de forma quase linear a entradas interpoladas (por exemplo, $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), fundir tokens similares via média é eficaz e preserva informação. No entanto, em camadas iniciais/profundas não lineares (como visualizado na Figura 1 do artigo), a interpolação linear no espaço de entrada leva a saídas altamente não lineares, tornando a fusão por média problemática e potencialmente causando desvios de distribuição. Nesses casos, a poda de tokens menos importantes é uma alternativa mais segura, embora com maior perda de informação.

2.2. A Estrutura ToFu

O ToFu opera por bloco do transformer:

Pontuação de Importância do Token: Atribui uma pontuação de importância a cada token (por exemplo, baseada na norma da atenção ou no gradiente).
Avaliação da Linearidade: Avalia a linearidade aproximada da camada, frequentemente derivada empiricamente ou via uma sonda leve.
Operação Adaptativa: Para uma razão de redução de tokens alvo:
- Em regiões de alta linearidade: Funde os tokens menos importantes com seus vizinhos importantes mais similares.
- Em regiões de baixa linearidade: Poda diretamente os tokens menos importantes.

Isso cria um pipeline de compressão dinâmico e sensível ao contexto.

2.3. MLERP: Fusão que Preserva a Norma

Para melhorar a média simples, os autores propõem o MLERP, uma adaptação da Interpolação Linear Esférica (SLERP) para fundir $K$ tokens. Para tokens $t_1, t_2, ..., t_K$ com normas $n_i = ||t_i||$, o MLERP primeiro interpola direções na esfera unitária e depois escala por uma média ponderada das normas originais:

$t_{\text{fundido}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

onde $w_i$ são pesos baseados na importância. Isso preserva a distribuição estatística da norma das características, mitigando o desvio de distribuição causado pela média ingênua e levando a um desempenho mais estável, especialmente em regimes não lineares.

3. Detalhes Técnicos e Formulação Matemática

O artigo formaliza o problema de redução de tokens. Seja uma camada com $N$ tokens de entrada $T = \{t_1, ..., t_N\}$. O objetivo é produzir um conjunto reduzido $T'$ com $M < N$ tokens.

Equações-Chave:

Pontuação de Importância: $I(t_i) = ||\text{Attn}(t_i)||_1$ ou uma medida baseada em gradiente.
Métrica de Similaridade: Tipicamente a similaridade de cosseno $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
Métrica de Linearidade ($\mathcal{L}$): Medida pelo desvio das saídas da camada em relação à interpolação linear das entradas. Um $\mathcal{L}$ baixo favorece a fusão; um $\mathcal{L}$ alto favorece a poda.

O algoritmo ToFu pode ser aplicado a modelos pré-treinados sem ajuste fino (zero-shot) ou aprimorado com treinamento leve.

4. Resultados Experimentais e Desempenho

Os autores avaliam o ToFu em tarefas de classificação de imagens (ImageNet com ViT-B/16, DeiT) e geração de imagens (modelos de difusão latente).

Destaques Principais de Desempenho

Classificação: O ToFu alcança um melhor compromisso precisão vs. FLOPs do que métodos isolados de poda (por exemplo, DynamicViT) ou fusão (ToMe). Por exemplo, com redução de 40% nos FLOPs, o ToFu perde <0,5% de precisão top-1 no ImageNet, superando o ToMe em ~0,3%.
Geração de Imagens: No Stable Diffusion, o ToFu mantém maior fidelidade visual (medida por FID) com custo computacional reduzido em comparação ao ToMe, especialmente ao reduzir um grande número de tokens. A fusão MLERP mostra vantagem mais clara em tarefas de geração onde a distribuição de saída é crítica.
Ablação: A estratégia adaptativa (escolher fundir/podar) mostra-se superior ao uso exclusivo de qualquer operação em todas as camadas. O MLERP supera consistentemente a fusão por média.

Descrição do Gráfico (Baseado na Figura 1 do Artigo): A figura ilustra a não linearidade das camadas do ViT. Dois pontos de característica de entrada (x1, x2) são interpolados linearmente (linha colorida). As saídas (f1-f4) de quatro camadas MLP diferentes dentro do ViT são plotadas. As saídas das MLPs iniciais e finais (f1, f4) mostram um desvio significativo de uma linha reta, indicando forte não linearidade. A média das duas entradas (estrela roxa) mapeia para um ponto de saída distante da média das saídas, demonstrando visualmente por que a fusão por média pode falhar em camadas não lineares.

5. Estrutura de Análise e Exemplo de Caso

Caso: Aplicando o ToFu a um ViT Pré-treinado para Implantação em Dispositivos de Borda

Cenário: Um desenvolvedor precisa executar um modelo ViT-B em um dispositivo móvel para classificação de imagens em tempo real. O modelo completo é muito lento.

Aplicação da Estrutura:

Perfilamento: Execute um pequeno conjunto de dados de calibração através do modelo. Para cada bloco transformer, calcule a métrica de linearidade $\mathcal{L}$ amostrando pares de tokens e verificando o erro de interpolação da saída.
Mapa de Estratégia: Crie um perfil: Blocos 1-3 (baixa linearidade) → prefira poda. Blocos 4-8 (alta linearidade) → prefira fusão MLERP. Blocos finais (baixa linearidade) → prefira poda.
Configuração: Defina um orçamento global de redução de tokens (por exemplo, 35%). Aplique poda em blocos de baixa linearidade e fusão MLERP em blocos de alta linearidade, respeitando os orçamentos por bloco derivados das pontuações de importância.
Avaliação: Implante o modelo comprimido. A abordagem adaptativa garante uma queda mínima de precisão em comparação com um método único, pois evita fusão agressiva em camadas não lineares sensíveis.

Este exemplo demonstra a utilidade prática do ToFu como uma estrutura de compressão estruturada, não apenas um algoritmo monolítico.

6. Aplicações Futuras e Direções de Pesquisa

Transformers Multimodais: Estender o ToFu para transformers de vídeo, áudio ou multimodais (por exemplo, CLIP, Flamingo) onde a dinâmica dos tokens é mais complexa.
Co-design Consciente do Hardware: Otimizar o algoritmo de decisão do ToFu (podar/fundir) e a implementação do MLERP para aceleradores de IA específicos (NPUs, GPUs) para maximizar o ganho de velocidade real.
Integração com Outras Técnicas: Combinar o ToFu com quantização, destilação de conhecimento ou mecanismos de atenção eficientes (como Linformer) para ganhos de eficiência compostos.
Busca Automática de Hiperparâmetros: Usar busca de arquitetura neural (NAS) ou aprendizado por reforço para determinar automaticamente a razão ótima de poda/fusão por camada e o limiar de linearidade.
Além da Visão: Explorar sua eficácia em Large Language Models (LLMs) para compressão de sequências, embora a semântica dos tokens difira significativamente.

7. Referências

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. Análise de Especialistas e Insights Críticos

Insight Central: O ToFu não é apenas mais uma ferramenta de compressão; é um reconhecimento formal de que as camadas do transformer são heterogêneas. Tratar todas as camadas com o mesmo primitivo de compressão é ingênuo. A genialidade do artigo está em sua abordagem diagnóstica — medir a linearidade da camada para prescrever a "cirurgia" correta (podar ou fundir). Isso lembra como os compiladores modernos perfis de código para aplicar otimizações, um nível de sofisticação frequentemente ausente na pesquisa de eficiência em ML.

Fluxo Lógico: O argumento é convincente: 1) Mostrar que a fusão por média falha em camadas não lineares (Fig. 1). 2) Propor uma métrica para detectar esse modo de falha (linearidade). 3) Usar a métrica para direcionar os tokens. 4) Corrigir a operação falha (fusão por média) com o MLERP. O fluxo da identificação do problema para uma solução de múltiplos componentes é claro e lógico.

Pontos Fortes e Fracos:
Pontos Fortes: A abordagem híbrida é teoricamente sólida e empiricamente validada em várias tarefas. O MLERP é uma correção simples, porém inteligente, para um problema real (colapso da norma). A aplicabilidade zero-shot é uma grande vantagem prática para implantar modelos existentes.
Pontos Fracos: O artigo subestima ligeiramente a sobrecarga da "avaliação de linearidade". É um perfil pré-computado (estático) ou calculado dinamicamente (sobrecarga dinâmica)? Os benefícios do MLERP, embora claros, parecem modestos na classificação; seu verdadeiro valor parece mais pronunciado em tarefas generativas, alinhando-se com descobertas da literatura de modelos de difusão onde a distribuição de saída é primordial. A comparação, embora justa, poderia ser mais agressiva contra métodos de quantização pós-treinamento de última geração que oferecem benefícios ortogonais.

Insights Acionáveis: Para profissionais: Adote imediatamente o ToFu/MLERP como seu método de primeira linha para redução de tokens em ViTs, especialmente para tarefas generativas. Ele substitui o ToMe como a estratégia de fusão padrão. Para pesquisadores: O paradigma de "compressão consciente da camada" é a principal lição. Trabalhos futuros devem focar em automatizar a detecção de regiões do modelo amigáveis à compressão versus sensíveis à compressão, talvez inspirando-se em trabalhos sobre poda de redes em CNNs ou na análise do colapso de modos em GANs como o CycleGAN. A próxima fronteira é construir modelos que são inerentemente eficientes por design, usando insights de tais estudos diagnósticos para informar a busca de arquitetura, indo além da mera compressão pós-hoc.