Token Fusion：橋接權杖修剪與合併以實現高效能視覺Transformer

1. 簡介與概述

視覺Transformer (ViTs) 已為電腦視覺帶來革命性改變，但由於自注意力機制相對於輸入權杖數量的二次方複雜度，導致其計算成本高昂。本論文《Token Fusion：橋接權杖修剪與權杖合併之間的鴻溝》介紹了Token Fusion (ToFu)，這是一種混合方法，能根據模型行為在修剪與合併權杖之間動態選擇，以優化效率與準確度之間的權衡。

核心洞見在於，無論是修剪（捨棄權杖）還是合併（平均權杖）都不是普遍最優的。本文提出了一種原則性的方法，為每一層選擇適當的操作，並搭配一種稱為MLERP（多權杖線性插值）的新穎合併技術，以解決標準平均合併中的分佈偏移問題。

2. 核心方法論：Token Fusion (ToFu)

ToFu 建立在分析模型對插值輸入的反應之上，據此決定其適合合併還是修剪。

2.1. 修剪與合併的兩難

作者們識別出一個關鍵標準：模型線性度。如果模型層對插值輸入的反應近乎線性（例如，$f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$），那麼透過平均來合併相似權杖是有效的，並且能保留資訊。然而，在早期/深層的非線性層中（如其圖1所示），輸入空間中的線性插值會導致高度非線性的輸出，使得平均合併產生問題，並可能導致分佈偏移。在這種情況下，修剪較不重要的權杖是一種更安全（儘管損失較多資訊）的替代方案。

2.2. ToFu 框架

ToFu 在每個 Transformer 區塊中運作：

權杖重要性評分： 為每個權杖分配一個重要性分數（例如，基於注意力範數或梯度）。
線性度評估： 評估該層的近似線性度，通常透過經驗或輕量級探測器得出。
自適應操作： 對於目標權杖縮減比例：
- 在高線性度區域：將最不重要的權杖與其最相似的重要鄰居合併。
- 在低線性度區域：直接修剪最不重要的權杖。

這創造了一個動態、情境感知的壓縮流程。

2.3. MLERP：保持範數的合併技術

為了改進簡單的平均法，作者們提出了MLERP，這是球面線性插值 (SLERP) 的一種改編，用於合併 $K$ 個權杖。對於範數為 $n_i = ||t_i||$ 的權杖 $t_1, t_2, ..., t_K$，MLERP 首先在單位球面上插值方向，然後按原始範數的加權平均值進行縮放：

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

其中 $w_i$ 是基於重要性的權重。這保留了特徵的統計範數分佈，減輕了簡單平均法引起的分佈偏移，從而帶來更穩定的效能，特別是在非線性區域。

3. 技術細節與數學公式

本文將權杖縮減問題形式化。假設某一層有 $N$ 個輸入權杖 $T = \{t_1, ..., t_N\}$。目標是產生一個縮減後的集合 $T'$，其中包含 $M < N$ 個權杖。

關鍵方程式：

重要性分數： $I(t_i) = ||\text{Attn}(t_i)||_1$ 或基於梯度的度量。
相似性度量： 通常是餘弦相似度 $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$。
線性度度量 ($\mathcal{L}$)： 透過層輸出與輸入線性插值的偏差來測量。低 $\mathcal{L}$ 值傾向合併；高 $\mathcal{L}$ 值傾向修剪。

ToFu 演算法可以應用於預訓練模型而無需微調（零樣本），也可以透過輕量訓練來增強。

4. 實驗結果與效能表現

作者們在影像分類（使用 ViT-B/16、DeiT 的 ImageNet）和影像生成（潛在擴散模型）任務上評估 ToFu。

關鍵效能亮點

分類： ToFu 在準確度與 FLOPs 的權衡上，優於單獨的修剪（例如 DynamicViT）或合併（ToMe）方法。例如，在減少 40% FLOPs 的情況下，ToFu 在 ImageNet 上的 top-1 準確度損失 <0.5%，表現優於 ToMe 約 0.3%。
影像生成： 在 Stable Diffusion 中，與 ToMe 相比，ToFu 在降低計算成本的同時保持了更高的視覺保真度（以 FID 衡量），尤其是在縮減大量權杖時。MLERP 合併在輸出分佈至關重要的生成任務中顯示出更明顯的優勢。
消融研究： 自適應策略（選擇合併/修剪）被證明優於在所有層中單獨使用任一操作。MLERP 始終優於平均合併。

圖表說明（基於論文圖1）： 該圖說明了 ViT 層的非線性。兩個輸入特徵點 (x1, x2) 被線性插值（彩色線）。繪製了 ViT 內部四個不同 MLP 層的輸出 (f1-f4)。早期和後期的 MLP 輸出 (f1, f4) 顯示出與直線的顯著偏差，表明強烈的非線性。兩個輸入的平均值（紫色星號）映射到一個遠離輸出平均值的輸出點，直觀地展示了為什麼平均合併在非線性層中可能失敗。

5. 分析框架與案例範例

案例：將 ToFu 應用於預訓練 ViT 以進行邊緣部署

情境： 一名開發人員需要在行動裝置上運行 ViT-B 模型以進行即時影像分類。完整模型速度太慢。

框架應用：

效能分析： 透過模型運行一個小型校準資料集。對於每個 Transformer 區塊，透過取樣權杖對並檢查輸出插值誤差來計算線性度度量 $\mathcal{L}$。
策略地圖： 建立分析檔案：區塊 1-3（低線性度）→ 傾向修剪。區塊 4-8（高線性度）→ 傾向 MLERP 合併。最終區塊（低線性度）→ 傾向修剪。
配置： 設定全域權杖縮減預算（例如 35%）。在低線性度區塊應用修剪，在高線性度區塊應用 MLERP 合併，並根據重要性分數得出的每區塊預算進行調整。
評估： 部署壓縮後的模型。與一刀切的方法相比，自適應方法確保了最小的準確度下降，因為它避免了在敏感的非線性層中進行激進的合併。

這個例子展示了 ToFu 作為一個結構化壓縮框架的實用性，而不僅僅是一個單一的演算法。

6. 未來應用與研究方向

多模態 Transformer： 將 ToFu 擴展到視訊、音訊或多模態（例如 CLIP、Flamingo）Transformer，這些模型的權杖動態更為複雜。
硬體感知協同設計： 針對特定的 AI 加速器（NPU、GPU）優化 ToFu 決策演算法（修剪/合併）和 MLERP 實現，以最大化實際加速效果。
與其他技術整合： 將 ToFu 與量化、知識蒸餾或高效注意力機制（如 Linformer）結合，以獲得複合的效率提升。
自動超參數搜尋： 使用神經架構搜尋 (NAS) 或強化學習來自動確定每層最佳的修剪/合併比例和線性度閾值。
超越視覺領域： 探索其在大型語言模型 (LLM) 中用於序列壓縮的效能，儘管權杖語義存在顯著差異。

7. 參考文獻

Dosovitskiy, A., 等人. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., 等人. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., 等人. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., 等人. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., 等人. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., 等人. "Attention Is All You Need." NeurIPS 2017.

8. 專家分析與關鍵見解

核心見解： ToFu 不僅僅是另一個壓縮工具；它正式承認了 Transformer 層是異質的。用相同的壓縮原語處理所有層是天真的。本文的卓越之處在於其診斷方法——測量層的線性度以開出正確的「手術」處方（修剪或合併）。這讓人聯想到現代編譯器如何分析程式碼以應用優化，這種複雜性在機器學習效率研究中常常缺失。

邏輯流程： 論證具有說服力：1) 展示平均合併在非線性層中失敗（圖1）。2) 提出一個度量來檢測這種失敗模式（線性度）。3) 使用該度量來路由權杖。4) 用 MLERP 修復失敗的操作（平均合併）。從問題識別到多組件解決方案的流程清晰且合乎邏輯。

優點與缺點：
優點： 混合方法在理論上是合理的，並在多個任務上得到實證驗證。MLERP 是對一個實際問題（範數崩潰）的簡單而巧妙的修復。零樣本適用性是部署現有模型的一個主要實務優勢。
缺點： 本文略微低估了「線性度評估」的開銷。它是預先計算的分析檔案（靜態）還是即時計算（動態開銷）？MLERP 的好處雖然明顯，但在分類任務中似乎較為有限；其真正價值似乎在生成任務中更為顯著，這與擴散模型文獻中輸出分佈至關重要的發現相符。雖然比較公平，但可以更積極地與提供正交效益的最新訓練後量化方法進行對比。

可行見解： 對於實務工作者：立即採用 ToFu/MLERP 作為您處理 ViT 權杖縮減的首選方法，特別是對於生成任務。 它取代了 ToMe 作為預設的合併策略。對於研究人員：「層感知壓縮」範式是關鍵要點。未來的工作應專注於自動檢測模型中對壓縮友好與對壓縮敏感的區域，或許可以從 CNN 中的網路修剪工作或 CycleGAN 等 GAN 中模式崩潰的分析中汲取靈感。下一個前沿是建立本質上高效的模型，利用此類診斷研究的見解來指導架構搜尋，超越單純的事後壓縮。