令牌融合：桥接令牌剪枝与合并以实现高效视觉Transformer

1. 引言与概述

视觉Transformer（ViTs）彻底改变了计算机视觉领域，但由于自注意力机制相对于输入令牌数量的二次复杂度，其计算成本高昂。本文《令牌融合：桥接令牌剪枝与令牌合并之间的鸿沟》介绍了令牌融合（ToFu），这是一种混合方法，它根据模型行为动态选择剪枝或合并令牌，以优化效率与精度之间的权衡。

核心见解在于，无论是剪枝（丢弃令牌）还是合并（平均令牌）都不是普遍最优的。本文提出了一种原则性的方法，为每一层选择合适的操作，并结合一种名为MLERP（多令牌线性插值）的新型合并技术，以解决标准平均合并中的分布偏移问题。

2. 核心方法：令牌融合（ToFu）

ToFu建立在对模型对插值输入响应的分析之上，以此确定其适合合并还是剪枝。

2.1. 剪枝与合并的两难选择

作者确定了一个关键标准：模型线性度。如果模型层对插值输入的响应接近线性（例如，$f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$），则通过平均来合并相似令牌是有效的，并能保留信息。然而，在早期/深层的非线性层中（如其图1所示），输入空间的线性插值会导致高度非线性的输出，使得平均合并存在问题，并可能导致分布偏移。在这种情况下，剪枝掉重要性较低的令牌是一种更安全（尽管信息损失更大）的替代方案。

2.2. ToFu框架

ToFu在每个Transformer块上运行：

令牌重要性评分：为每个令牌分配一个重要性分数（例如，基于注意力范数或梯度）。
线性度评估：评估该层的近似线性度，通常通过经验或轻量级探针得出。
自适应操作：对于目标令牌缩减比例：
- 在高线性度区域：将最不重要的令牌与其最相似的重要邻居合并。
- 在低线性度区域：直接剪枝掉最不重要的令牌。

这创建了一个动态的、上下文感知的压缩流水线。

2.3. MLERP：保持范数的合并方法

为了改进简单的平均操作，作者提出了MLERP，这是球面线性插值（SLERP）的一种变体，用于合并 $K$ 个令牌。对于范数为 $n_i = ||t_i||$ 的令牌 $t_1, t_2, ..., t_K$，MLERP首先在单位球面上插值方向，然后按原始范数的加权平均值进行缩放：

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

其中 $w_i$ 是基于重要性的权重。这保留了特征的统计范数分布，缓解了朴素平均引起的分布偏移，从而带来更稳定的性能，尤其是在非线性区域。

3. 技术细节与数学公式

本文形式化了令牌缩减问题。假设某一层有 $N$ 个输入令牌 $T = \{t_1, ..., t_N\}$。目标是生成一个缩减后的集合 $T'$，包含 $M < N$ 个令牌。

关键公式：

重要性分数： $I(t_i) = ||\text{Attn}(t_i)||_1$ 或基于梯度的度量。
相似性度量： 通常使用余弦相似度 $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$。
线性度度量 ($\mathcal{L}$)： 通过层输出与输入线性插值的偏差来测量。低 $\mathcal{L}$ 值倾向于合并；高 $\mathcal{L}$ 值倾向于剪枝。

ToFu算法可以应用于预训练模型而无需微调（零样本），也可以通过轻量训练进行增强。

4. 实验结果与性能

作者在图像分类（使用ViT-B/16、DeiT的ImageNet）和图像生成（潜在扩散模型）任务上评估了ToFu。

关键性能亮点

分类： 与独立的剪枝（如DynamicViT）或合并（ToMe）方法相比，ToFu在精度与FLOPs的权衡上表现更优。例如，在FLOPs减少40%的情况下，ToFu在ImageNet上的top-1精度损失<0.5%，优于ToMe约0.3%。
图像生成： 在Stable Diffusion中，与ToMe相比，ToFu在降低计算成本的同时保持了更高的视觉保真度（通过FID测量），尤其是在缩减大量令牌时。MLERP合并方法在输出分布至关重要的生成任务中显示出更明显的优势。
消融实验： 自适应策略（选择合并/剪枝）被证明优于在所有层中仅使用单一操作。MLERP始终优于平均合并。

图表描述（基于论文图1）： 该图说明了ViT层的非线性特性。两个输入特征点（x1, x2）被线性插值（彩色线）。绘制了ViT内部四个不同MLP层的输出（f1-f4）。早期和晚期的MLP输出（f1, f4）显示出与直线的显著偏差，表明强烈的非线性。两个输入的平均值（紫色星号）映射到一个远离输出平均值的输出点，直观地展示了为什么平均合并在非线性层中可能失败。

5. 分析框架与案例示例

案例：将ToFu应用于预训练ViT以实现边缘部署

场景： 一名开发者需要在移动设备上运行ViT-B模型以实现实时图像分类。完整模型速度过慢。

框架应用：

性能剖析： 通过模型运行一个小型校准数据集。对于每个Transformer块，通过采样令牌对并检查输出插值误差来计算线性度度量 $\mathcal{L}$。
策略映射： 创建剖析结果：第1-3块（低线性度）→ 倾向于剪枝。第4-8块（高线性度）→ 倾向于MLERP合并。最后几块（低线性度）→ 倾向于剪枝。
配置： 设定全局令牌缩减预算（例如，35%）。在低线性度块应用剪枝，在高线性度块应用MLERP合并，并遵守根据重要性分数得出的每块预算。
评估： 部署压缩后的模型。与一刀切的方法相比，这种自适应方法确保了最小的精度下降，因为它避免了在敏感的非线性层中进行激进的合并。

这个例子展示了ToFu作为一个结构化压缩框架的实用性，而不仅仅是一个单一的算法。

6. 未来应用与研究展望

多模态Transformer： 将ToFu扩展到视频、音频或多模态（如CLIP、Flamingo）Transformer，这些场景中的令牌动态更为复杂。
硬件感知协同设计： 针对特定的AI加速器（NPU、GPU）优化ToFu决策算法（剪枝/合并）和MLERP实现，以最大化实际加速效果。
与其他技术集成： 将ToFu与量化、知识蒸馏或高效注意力机制（如Linformer）结合，以获得复合的效率提升。
自动化超参数搜索： 使用神经架构搜索（NAS）或强化学习自动确定每层最优的剪枝/合并比例和线性度阈值。
超越视觉领域： 探索其在大型语言模型（LLM）中用于序列压缩的有效性，尽管令牌语义存在显著差异。

7. 参考文献

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. 专家分析与关键见解

核心见解： ToFu不仅仅是另一种压缩工具；它正式承认了Transformer层的异质性。用相同的压缩原语处理所有层是天真的。本文的卓越之处在于其诊断方法——通过测量层线性度来规定正确的“手术”（剪枝或合并）。这让人联想到现代编译器如何剖析代码以应用优化，这种复杂程度在机器学习效率研究中常常缺失。

逻辑脉络： 论证过程极具说服力：1）展示平均合并在非线性层中失败（图1）。2）提出一个度量标准来检测这种失败模式（线性度）。3）使用该度量标准来路由令牌。4）用MLERP修复失败的操作（平均合并）。从问题识别到多组件解决方案的流程清晰且合乎逻辑。

优势与不足：
优势： 混合方法在理论上是合理的，并在多个任务上得到了经验验证。MLERP是对一个实际问题（范数塌缩）的简单而巧妙的修复。零样本适用性对于部署现有模型是一个主要的实用优势。
不足： 本文略微低估了“线性度评估”的开销。它是预先计算的剖析结果（静态）还是动态计算的（动态开销）？MLERP的优势虽然明显，但在分类任务中似乎较为有限；其真正价值似乎在生成任务中更为显著，这与扩散模型文献中的发现一致，即输出分布至关重要。虽然比较是公平的，但可以更积极地与最先进的训练后量化方法进行比较，后者提供了正交的益处。

可操作的见解： 对于从业者：立即采用ToFu/MLERP作为您处理ViT令牌缩减的首选方法，尤其是对于生成任务。 它取代了ToMe作为默认的合并策略。对于研究者：“层感知压缩”范式是关键要点。未来的工作应侧重于自动检测模型中对压缩友好与敏感的区域，或许可以借鉴CNN网络剪枝或CycleGAN等GAN中模式塌缩分析工作的灵感。下一个前沿是设计本质上高效的模型，利用此类诊断研究的见解来指导架构搜索，超越单纯的事后压缩。