1. 引言与概述
视觉Transformer(ViTs)彻底改变了计算机视觉领域,但由于自注意力机制相对于输入令牌数量的二次复杂度,其计算成本高昂。本文《令牌融合:桥接令牌剪枝与令牌合并之间的鸿沟》介绍了令牌融合(ToFu),这是一种混合方法,它根据模型行为动态选择剪枝或合并令牌,以优化效率与精度之间的权衡。
核心见解在于,无论是剪枝(丢弃令牌)还是合并(平均令牌)都不是普遍最优的。本文提出了一种原则性的方法,为每一层选择合适的操作,并结合一种名为MLERP(多令牌线性插值)的新型合并技术,以解决标准平均合并中的分布偏移问题。
2. 核心方法:令牌融合(ToFu)
ToFu建立在对模型对插值输入响应的分析之上,以此确定其适合合并还是剪枝。
2.1. 剪枝与合并的两难选择
作者确定了一个关键标准:模型线性度。如果模型层对插值输入的响应接近线性(例如,$f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$),则通过平均来合并相似令牌是有效的,并能保留信息。然而,在早期/深层的非线性层中(如其图1所示),输入空间的线性插值会导致高度非线性的输出,使得平均合并存在问题,并可能导致分布偏移。在这种情况下,剪枝掉重要性较低的令牌是一种更安全(尽管信息损失更大)的替代方案。
2.2. ToFu框架
ToFu在每个Transformer块上运行:
- 令牌重要性评分:为每个令牌分配一个重要性分数(例如,基于注意力范数或梯度)。
- 线性度评估:评估该层的近似线性度,通常通过经验或轻量级探针得出。
- 自适应操作:对于目标令牌缩减比例:
- 在高线性度区域:将最不重要的令牌与其最相似的重要邻居合并。
- 在低线性度区域:直接剪枝掉最不重要的令牌。
这创建了一个动态的、上下文感知的压缩流水线。
2.3. MLERP:保持范数的合并方法
为了改进简单的平均操作,作者提出了MLERP,这是球面线性插值(SLERP)的一种变体,用于合并 $K$ 个令牌。对于范数为 $n_i = ||t_i||$ 的令牌 $t_1, t_2, ..., t_K$,MLERP首先在单位球面上插值方向,然后按原始范数的加权平均值进行缩放:
$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$
其中 $w_i$ 是基于重要性的权重。这保留了特征的统计范数分布,缓解了朴素平均引起的分布偏移,从而带来更稳定的性能,尤其是在非线性区域。
3. 技术细节与数学公式
本文形式化了令牌缩减问题。假设某一层有 $N$ 个输入令牌 $T = \{t_1, ..., t_N\}$。目标是生成一个缩减后的集合 $T'$,包含 $M < N$ 个令牌。
关键公式:
- 重要性分数: $I(t_i) = ||\text{Attn}(t_i)||_1$ 或基于梯度的度量。
- 相似性度量: 通常使用余弦相似度 $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$。
- 线性度度量 ($\mathcal{L}$): 通过层输出与输入线性插值的偏差来测量。低 $\mathcal{L}$ 值倾向于合并;高 $\mathcal{L}$ 值倾向于剪枝。
ToFu算法可以应用于预训练模型而无需微调(零样本),也可以通过轻量训练进行增强。
4. 实验结果与性能
作者在图像分类(使用ViT-B/16、DeiT的ImageNet)和图像生成(潜在扩散模型)任务上评估了ToFu。
关键性能亮点
- 分类: 与独立的剪枝(如DynamicViT)或合并(ToMe)方法相比,ToFu在精度与FLOPs的权衡上表现更优。例如,在FLOPs减少40%的情况下,ToFu在ImageNet上的top-1精度损失<0.5%,优于ToMe约0.3%。
- 图像生成: 在Stable Diffusion中,与ToMe相比,ToFu在降低计算成本的同时保持了更高的视觉保真度(通过FID测量),尤其是在缩减大量令牌时。MLERP合并方法在输出分布至关重要的生成任务中显示出更明显的优势。
- 消融实验: 自适应策略(选择合并/剪枝)被证明优于在所有层中仅使用单一操作。MLERP始终优于平均合并。
图表描述(基于论文图1): 该图说明了ViT层的非线性特性。两个输入特征点(x1, x2)被线性插值(彩色线)。绘制了ViT内部四个不同MLP层的输出(f1-f4)。早期和晚期的MLP输出(f1, f4)显示出与直线的显著偏差,表明强烈的非线性。两个输入的平均值(紫色星号)映射到一个远离输出平均值的输出点,直观地展示了为什么平均合并在非线性层中可能失败。
5. 分析框架与案例示例
案例:将ToFu应用于预训练ViT以实现边缘部署
场景: 一名开发者需要在移动设备上运行ViT-B模型以实现实时图像分类。完整模型速度过慢。
框架应用:
- 性能剖析: 通过模型运行一个小型校准数据集。对于每个Transformer块,通过采样令牌对并检查输出插值误差来计算线性度度量 $\mathcal{L}$。
- 策略映射: 创建剖析结果:第1-3块(低线性度)→ 倾向于剪枝。第4-8块(高线性度)→ 倾向于MLERP合并。最后几块(低线性度)→ 倾向于剪枝。
- 配置: 设定全局令牌缩减预算(例如,35%)。在低线性度块应用剪枝,在高线性度块应用MLERP合并,并遵守根据重要性分数得出的每块预算。
- 评估: 部署压缩后的模型。与一刀切的方法相比,这种自适应方法确保了最小的精度下降,因为它避免了在敏感的非线性层中进行激进的合并。
这个例子展示了ToFu作为一个结构化压缩框架的实用性,而不仅仅是一个单一的算法。
6. 未来应用与研究展望
- 多模态Transformer: 将ToFu扩展到视频、音频或多模态(如CLIP、Flamingo)Transformer,这些场景中的令牌动态更为复杂。
- 硬件感知协同设计: 针对特定的AI加速器(NPU、GPU)优化ToFu决策算法(剪枝/合并)和MLERP实现,以最大化实际加速效果。
- 与其他技术集成: 将ToFu与量化、知识蒸馏或高效注意力机制(如Linformer)结合,以获得复合的效率提升。
- 自动化超参数搜索: 使用神经架构搜索(NAS)或强化学习自动确定每层最优的剪枝/合并比例和线性度阈值。
- 超越视觉领域: 探索其在大型语言模型(LLM)中用于序列压缩的有效性,尽管令牌语义存在显著差异。
7. 参考文献
- Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
- Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
- Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
- Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
- Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
- Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.
8. 专家分析与关键见解
核心见解: ToFu不仅仅是另一种压缩工具;它正式承认了Transformer层的异质性。用相同的压缩原语处理所有层是天真的。本文的卓越之处在于其诊断方法——通过测量层线性度来规定正确的“手术”(剪枝或合并)。这让人联想到现代编译器如何剖析代码以应用优化,这种复杂程度在机器学习效率研究中常常缺失。
逻辑脉络: 论证过程极具说服力:1)展示平均合并在非线性层中失败(图1)。2)提出一个度量标准来检测这种失败模式(线性度)。3)使用该度量标准来路由令牌。4)用MLERP修复失败的操作(平均合并)。从问题识别到多组件解决方案的流程清晰且合乎逻辑。
优势与不足:
优势: 混合方法在理论上是合理的,并在多个任务上得到了经验验证。MLERP是对一个实际问题(范数塌缩)的简单而巧妙的修复。零样本适用性对于部署现有模型是一个主要的实用优势。
不足: 本文略微低估了“线性度评估”的开销。它是预先计算的剖析结果(静态)还是动态计算的(动态开销)?MLERP的优势虽然明显,但在分类任务中似乎较为有限;其真正价值似乎在生成任务中更为显著,这与扩散模型文献中的发现一致,即输出分布至关重要。虽然比较是公平的,但可以更积极地与最先进的训练后量化方法进行比较,后者提供了正交的益处。
可操作的见解: 对于从业者:立即采用ToFu/MLERP作为您处理ViT令牌缩减的首选方法,尤其是对于生成任务。 它取代了ToMe作为默认的合并策略。对于研究者:“层感知压缩”范式是关键要点。未来的工作应侧重于自动检测模型中对压缩友好与敏感的区域,或许可以借鉴CNN网络剪枝或CycleGAN等GAN中模式塌缩分析工作的灵感。下一个前沿是设计本质上高效的模型,利用此类诊断研究的见解来指导架构搜索,超越单纯的事后压缩。