Token Fusion: トークンのプルーニングとマージを統合した効率的なVision Transformerの実現

1. 序論と概要

Vision Transformer (ViT) はコンピュータビジョンに革命をもたらしたが、入力トークン数に対するセルフアテンションの二次的な計算複雑性により、高い計算コストが課題となっている。本論文『Token Fusion: Bridging the Gap between Token Pruning and Token Merging』は、トークン融合 (ToFu) を提案する。これは、モデルの振る舞いに基づいてトークンのプルーニング（削除）とマージ（統合）を動的に選択し、効率性と精度のトレードオフを最適化するハイブリッド手法である。

中核となる洞察は、プルーニング（トークンの破棄）とマージ（トークンの平均化）のいずれもが普遍的に最適ではないという点である。本論文は、レイヤーごとに適切な操作を選択する原理的な方法と、標準的な平均マージにおける分布シフトの問題に対処する新しいマージ技術 MLERP (Multi-token Linear intERPolation) を提案する。

2. 中核手法: トークン融合 (ToFu)

ToFuは、補間された入力に対するモデルの応答を分析し、マージまたはプルーニングの適性を判断することに基づいている。

2.1. プルーニング対マージのジレンマ

著者らは重要な基準としてモデルの線形性を特定した。もしモデルレイヤーが補間入力に対してほぼ線形に応答する場合（例：$f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$）、類似トークンを平均化によるマージは有効であり、情報を保持する。しかし、初期/深層の非線形レイヤー（論文の図1に可視化）では、入力空間での線形補間は高度に非線形な出力をもたらし、平均マージを問題のあるものとし、分布シフトを引き起こす可能性がある。そのような場合、重要度の低いトークンをプルーニングすることが、情報損失はあるものの、より安全な代替手段となる。

2.2. The ToFu Framework

ToFuはトランスフォーマーブロックごとに動作する：

トークン重要度スコアリング: 各トークンに重要度スコアを割り当てる（例：アテンションのノルムや勾配に基づく）。
線形性評価: レイヤーの近似的な線形性を評価する。多くの場合、経験的または軽量なプローブによって導出される。
適応的操作: 目標とするトークン削減率に対して：
- 高線形性領域では：重要度が最も低いトークンを、最も類似した重要度の高い隣接トークンとマージする。
- 低線形性領域では：重要度が最も低いトークンを直接プルーニングする。

これにより、動的で文脈を考慮した圧縮パイプラインが構築される。

2.3. MLERP: ノルム保存型マージ

単純な平均化を改善するため、著者らはMLERPを提案する。これは$K$個のトークンをマージするための球面線形補間 (SLERP) を応用したものである。ノルム $n_i = ||t_i||$ を持つトークン $t_1, t_2, ..., t_K$ に対して、MLERPはまず単位球面上で方向を補間し、その後元のノルムの重み付き平均でスケーリングする：

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

ここで、$w_i$ は重要度に基づく重みである。これにより、特徴量の統計的ノルム分布が保持され、単純な平均化によって引き起こされる分布シフトを緩和し、特に非線形領域においてより安定した性能をもたらす。

3. 技術詳細と数式定式化

本論文はトークン削減問題を定式化する。あるレイヤーが $N$ 個の入力トークン $T = \{t_1, ..., t_N\}$ を持つとする。目標は、$M < N$ 個のトークンからなる削減集合 $T'$ を生成することである。

主要な式:

重要度スコア: $I(t_i) = ||\text{Attn}(t_i)||_1$ または勾配ベースの尺度。
類似度指標: 典型的にはコサイン類似度 $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$。
線形性指標 ($\mathcal{L}$): 入力の線形補間からのレイヤー出力の偏差によって測定される。低い $\mathcal{L}$ はマージを支持し、高い $\mathcal{L}$ はプルーニングを支持する。

ToFuアルゴリズムは、ファインチューニングなし（ゼロショット）で事前学習済みモデルに適用可能であり、軽量な学習で強化することもできる。

4. 実験結果と性能評価

著者らは、画像分類（ImageNet with ViT-B/16, DeiT）および画像生成（潜在拡散モデル）タスクにおいてToFuを評価した。

主要な性能ハイライト

分類: ToFuは、単独のプルーニング（例：DynamicViT）やマージ（ToMe）手法よりも、精度対FLOPsのトレードオフにおいて優れた結果を達成した。例えば、FLOPsを40%削減した場合、ToFuはImageNetでtop-1精度の低下が <0.5% であり、ToMeを約0.3%上回った。
画像生成: Stable Diffusionにおいて、ToFuはToMeと比較して、計算コストを削減しながらも、特に多数のトークンを削減する場合に、より高い視覚的忠実度（FIDで測定）を維持した。MLERPマージは、出力分布が重要な生成タスクにおいて、より明確な利点を示した。
アブレーション研究: 適応戦略（マージ/プルーニングの選択）は、すべてのレイヤーでいずれかの操作のみを使用するよりも優れていることが示された。MLERPは一貫して平均マージを上回った。

図の説明（論文の図1に基づく）: この図はViTレイヤーの非線形性を示している。2つの入力特徴点（x1, x2）が線形補間され（色付きの線）、ViT内部の4つの異なるMLPレイヤーからの出力（f1-f4）がプロットされている。初期および後期のMLP出力（f1, f4）は直線からの著しい偏差を示し、強い非線形性を示している。2つの入力の平均（紫色の星）は、出力の平均から遠く離れた出力点にマッピングされており、非線形レイヤーで平均マージが失敗する理由を視覚的に示している。

5. 分析フレームワークと事例

事例: エッジデプロイメントのための事前学習済みViTへのToFu適用

シナリオ: 開発者がモバイルデバイス上でリアルタイム画像分類のためにViT-Bモデルを実行する必要があるが、完全なモデルは遅すぎる。

フレームワークの適用:

プロファイリング: 小さなキャリブレーションデータセットをモデルに通す。各トランスフォーマーブロックについて、トークンペアをサンプリングし出力補間誤差をチェックすることで、線形性指標 $\mathcal{L}$ を計算する。
戦略マップ作成: プロファイルを作成：ブロック1-3（低線形性）→ プルーニングを優先。ブロック4-8（高線形性）→ MLERPマージを優先。最終ブロック（低線形性）→ プルーニングを優先。
設定: グローバルなトークン削減予算を設定（例：35%）。低線形性ブロックではプルーニングを、高線形性ブロックではMLERPマージを適用し、重要度スコアから導出されたブロックごとの予算を尊重する。
評価: 圧縮モデルをデプロイする。この適応的アプローチにより、敏感な非線形レイヤーでの過度なマージを回避することで、画一的な手法と比較して最小限の精度低下が保証される。

この事例は、ToFuが単なる単一のアルゴリズムではなく、構造化された圧縮フレームワークとしての実用的な有用性を示している。

6. 将来の応用と研究方向

マルチモーダルトランスフォーマー: トークンの動態がより複雑な、ビデオ、オーディオ、またはマルチモーダル（例：CLIP, Flamingo）トランスフォーマーへのToFuの拡張。
ハードウェアを考慮した協調設計: 特定のAIアクセラレータ（NPU, GPU）向けに、ToFuの決定アルゴリズム（プルーニング/マージ）とMLERPの実装を最適化し、実効的な高速化を最大化する。
他の技術との統合: ToFuと量子化、知識蒸留、または効率的なアテンション機構（Linformerなど）を組み合わせ、相乗的な効率向上を図る。
自動ハイパーパラメータ探索: ニューラルアーキテクチャサーチ (NAS) または強化学習を使用して、レイヤーごとの最適なプルーニング/マージ比率と線形性閾値を自動的に決定する。
ビジョン以外への応用: トークンの意味論が大きく異なるが、大規模言語モデル (LLM) におけるシーケンス圧縮への有効性の探索。

7. 参考文献

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. 専門家分析と批判的考察

中核的洞察: ToFuは単なる別の圧縮ツールではない。トランスフォーマーレイヤーが異質であることを正式に認識したものである。すべてのレイヤーを同じ圧縮プリミティブで扱うことはナイーブである。本論文の卓越性は、適切な「手術」（プルーニングまたはマージ）を処方するためにレイヤーの線形性を測定するという診断的アプローチにある。これは、現代のコンパイラが最適化を適用するためにコードをプロファイリングする方法を彷彿とさせ、ML効率研究ではしばしば欠けている洗練度のレベルである。

論理的流れ: 議論は説得力がある：1) 非線形レイヤーで平均マージが失敗することを示す（図1）。2) この失敗モードを検出する指標（線形性）を提案する。3) その指標を使用してトークンを振り分ける。4) 失敗する操作（平均マージ）をMLERPで修正する。問題の特定から多要素の解決策への流れは明快で論理的である。

長所と欠点:
長所: ハイブリッドアプローチは理論的に健全であり、タスク横断的に経験的に検証されている。MLERPは、実際の問題（ノルム崩壊）に対するシンプルでありながら巧妙な修正である。ゼロショット適用性は、既存モデルをデプロイする上で主要な実用的利点である。
欠点: 本論文は「線形性評価」のオーバーヘッドをやや過小評価している。これは事前計算されたプロファイル（静的）なのか、オンザフライで計算される（動的オーバーヘッド）のか？ MLERPの利点は明確であるが、分類タスクでは控えめに見える。その真の価値は、出力分布が最も重要である拡散モデルの文献からの知見と一致して、生成タスクにおいてより顕著であるようだ。比較は公平であるが、直交する利点を提供する最先端の学習後量子化手法に対して、より積極的である可能性がある。

実践的洞察: 実務家向け：特に生成タスクにおいて、ViTの第一線のトークン削減手法として直ちにToFu/MLERPを採用せよ。 これはデフォルトのマージ戦略としてToMeに取って代わる。研究者向け：「レイヤーを考慮した圧縮」パラダイムが重要な要点である。将来の研究は、CNNにおけるネットワークプルーニングの研究やCycleGANのようなGANにおけるモード崩壊の分析から着想を得て、圧縮に適したモデル領域と圧縮に敏感なモデル領域の検出を自動化することに焦点を当てるべきである。次のフロンティアは、このような診断的研究からの洞察を用いてアーキテクチャサーチに情報を提供し、単なる事後的な圧縮を超えて、本質的に効率的なモデルを設計によって構築することである。