Token Fusion: Menjambat Jurang antara Pemangkasan Token dan Penggabungan Token untuk Vision Transformer yang Cekap

1. Pengenalan & Gambaran Keseluruhan

Vision Transformers (ViTs) telah merevolusikan penglihatan komputer tetapi mengalami kos pengiraan yang tinggi disebabkan kerumitan kuadratik perhatian kendiri berhubung dengan bilangan token input. Kertas kerja ini, Token Fusion: Menjambat Jurang antara Pemangkasan Token dan Penggabungan Token, memperkenalkan Token Fusion (ToFu), kaedah hibrid yang memilih secara dinamik antara pemangkasan dan penggabungan token berdasarkan tingkah laku model untuk mengoptimumkan pertukaran antara kecekapan dan ketepatan.

Pandangan terasnya adalah bahawa sama ada pemangkasan (membuang token) atau penggabungan (purata token) tidaklah optimum secara universal. Kertas kerja ini mencadangkan cara berprinsip untuk memilih operasi yang sesuai bagi setiap lapisan, digabungkan dengan teknik penggabungan baharu yang dipanggil MLERP (Multi-token Linear intERPolation) untuk menangani isu anjakan taburan dalam penggabungan purata piawai.

2. Metodologi Teras: Token Fusion (ToFu)

ToFu dibina berdasarkan analisis tindak balas model terhadap input yang diinterpolasi, menentukan kesesuaiannya untuk digabungkan atau dipangkas.

2.1. Dilema Pemangkasan vs. Penggabungan

Para penulis mengenal pasti satu kriteria utama: kelinearan model. Jika lapisan model bertindak balas hampir linear terhadap input yang diinterpolasi (contohnya, $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), penggabungan token serupa melalui purata adalah berkesan dan mengekalkan maklumat. Walau bagaimanapun, dalam lapisan tidak linear awal/dalam (seperti yang divisualisasikan dalam Rajah 1 mereka), interpolasi linear dalam ruang input membawa kepada output yang sangat tidak linear, menjadikan penggabungan purata bermasalah dan berpotensi menyebabkan anjakan taburan. Dalam kes sedemikian, pemangkasan token yang kurang penting adalah alternatif yang lebih selamat, walaupun menyebabkan lebih banyak kehilangan maklumat.

2.2. Kerangka Kerja ToFu

ToFu beroperasi bagi setiap blok transformer:

Penilaian Kepentingan Token: Memberikan skor kepentingan kepada setiap token (contohnya, berdasarkan norm perhatian atau kecerunan).
Penilaian Kelinearan: Menilai kelinearan anggaran lapisan, selalunya diperoleh secara empirikal atau melalui penyiasat ringan.
Operasi Adaptif: Untuk nisbah pengurangan token sasaran:
- Dalam kawasan kelinearan tinggi: Gabungkan token yang paling tidak penting dengan jiran penting yang paling serupa.
- Dalam kawasan kelinearan rendah: Pangkas terus token yang paling tidak penting.

Ini mewujudkan saluran mampatan dinamik yang sedar konteks.

2.3. MLERP: Penggabungan yang Mengekalkan Norm

Untuk menambah baik purata ringkas, para penulis mencadangkan MLERP, adaptasi Spherical Linear Interpolation (SLERP) untuk menggabungkan $K$ token. Bagi token $t_1, t_2, ..., t_K$ dengan norm $n_i = ||t_i||$, MLERP pertama kali menginterpolasi arah pada sfera unit dan kemudian menskala dengan purata wajaran norm asal:

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

di mana $w_i$ ialah pemberat berdasarkan kepentingan. Ini mengekalkan taburan norm statistik ciri, mengurangkan anjakan taburan yang disebabkan oleh purata naif dan membawa kepada prestasi yang lebih stabil, terutamanya dalam rejim tidak linear.

3. Butiran Teknikal & Rumusan Matematik

Kertas kerja ini memformalkan masalah pengurangan token. Katakan satu lapisan mempunyai $N$ token input $T = \{t_1, ..., t_N\}$. Matlamatnya adalah untuk menghasilkan set terkurang $T'$ dengan $M < N$ token.

Persamaan Utama:

Skor Kepentingan: $I(t_i) = ||\text{Attn}(t_i)||_1$ atau ukuran berasaskan kecerunan.
Metrik Keserupaan: Biasanya keserupaan kosinus $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
Metrik Kelinearan ($\mathcal{L}$): Diukur dengan sisihan output lapisan daripada interpolasi linear input. Nilai $\mathcal{L}$ rendah menyokong penggabungan; nilai $\mathcal{L}$ tinggi menyokong pemangkasan.

Algoritma ToFu boleh digunakan pada model yang telah dilatih tanpa penyelarasan halus (zero-shot) atau dipertingkatkan dengan latihan ringan.

4. Keputusan Eksperimen & Prestasi

Para penulis menilai ToFu pada tugas pengelasan imej (ImageNet dengan ViT-B/16, DeiT) dan penjanaan imej (model penyebaran laten).

Sorotan Prestasi Utama

Pengelasan: ToFu mencapai pertukaran ketepatan vs. FLOPs yang lebih baik daripada kaedah pemangkasan tunggal (contohnya, DynamicViT) atau penggabungan (ToMe). Contohnya, pada pengurangan FLOPs 40%, ToFu kehilangan <0.5% ketepatan top-1 pada ImageNet, mengatasi ToMe sebanyak ~0.3%.
Penjanaan Imej: Dalam Stable Diffusion, ToFu mengekalkan kesetiaan visual yang lebih tinggi (diukur oleh FID) pada kos pengiraan yang dikurangkan berbanding ToMe, terutamanya apabila mengurangkan sejumlah besar token. Penggabungan MLERP menunjukkan kelebihan yang lebih jelas dalam tugas penjanaan di mana taburan output adalah kritikal.
Ablasi: Strategi adaptif (memilih gabung/pangkas) terbukti lebih unggul daripada menggunakan mana-mana operasi secara eksklusif di semua lapisan. MLERP secara konsisten mengatasi penggabungan purata.

Penerangan Carta (Berdasarkan Rajah 1 Kertas Kerja): Rajah menggambarkan ketidaklinearan lapisan ViT. Dua titik ciri input (x1, x2) diinterpolasi secara linear (garisan berwarna). Output (f1-f4) daripada empat lapisan MLP berbeza di dalam ViT diplotkan. Output MLP awal dan akhir (f1, f4) menunjukkan sisihan ketara daripada garis lurus, menunjukkan ketidaklinearan yang kuat. Purata dua input (bintang ungu) memetakan kepada titik output yang jauh daripada purata output, secara visual menunjukkan mengapa penggabungan purata boleh gagal dalam lapisan tidak linear.

5. Kerangka Analisis & Contoh Kes

Kes: Menggunakan ToFu pada ViT yang Telah Dilatih untuk Penempatan Tepi

Senario: Seorang pembangun perlu menjalankan model ViT-B pada peranti mudah alih untuk pengelasan imej masa nyata. Model penuh terlalu perlahan.

Aplikasi Kerangka:

Profil: Jalankan set data penentukuran kecil melalui model. Bagi setiap blok transformer, kira metrik kelinearan $\mathcal{L}$ dengan mengambil sampel pasangan token dan memeriksa ralat interpolasi output.
Peta Strategi: Cipta profil: Blok 1-3 (kelinearan rendah) → utamakan pemangkasan. Blok 4-8 (kelinearan tinggi) → utamakan penggabungan MLERP. Blok akhir (kelinearan rendah) → utamakan pemangkasan.
Konfigurasi: Tetapkan belanjawan pengurangan token global (contohnya, 35%). Gunakan pemangkasan dalam blok kelinearan rendah dan penggabungan MLERP dalam blok kelinearan tinggi, menghormati belanjawan per-blok yang diperoleh daripada skor kepentingan.
Penilaian: Letakkan model termampat. Pendekatan adaptif memastikan penurunan ketepatan yang minimum berbanding kaedah satu-saiz-sesuai-semua, kerana ia mengelakkan penggabungan agresif dalam lapisan tidak linear yang sensitif.

Contoh ini menunjukkan utiliti praktikal ToFu sebagai kerangka kerja mampatan berstruktur, bukan sekadar algoritma monolitik.

6. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Transformer Multimodal: Meluaskan ToFu kepada transformer video, audio, atau multimodal (contohnya, CLIP, Flamingo) di mana dinamik token lebih kompleks.
Reka Bentuk Bersama Sedar Perkakasan: Mengoptimumkan algoritma keputusan ToFu (pangkas/gabung) dan pelaksanaan MLERP untuk pemecut AI khusus (NPU, GPU) untuk memaksimumkan percepatan sebenar.
Integrasi dengan Teknik Lain: Menggabungkan ToFu dengan kuantisasi, penyulingan pengetahuan, atau mekanisme perhatian cekap (seperti Linformer) untuk keuntungan kecekapan berganda.
Carian Hiperparameter Automatik: Menggunakan carian seni bina neural (NAS) atau pembelajaran pengukuhan untuk menentukan secara automatik nisbah pemangkasan/penggabungan per-lapisan optimum dan ambang kelinearan.
Melangkaui Penglihatan: Meneroka keberkesanannya dalam Model Bahasa Besar (LLM) untuk mampatan jujukan, walaupun semantik token berbeza dengan ketara.

7. Rujukan

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. Analisis Pakar & Pandangan Kritikal

Pandangan Teras: ToFu bukan sekadar alat mampatan lain; ia adalah pengiktirafan formal bahawa lapisan transformer adalah heterogen. Merawat semua lapisan dengan primitif mampatan yang sama adalah naif. Kecemerlangan kertas kerja ini terletak pada pendekatan diagnostiknya—mengukur kelinearan lapisan untuk menetapkan "pembedahan" yang betul (pangkas atau gabung). Ini mengingatkan bagaimana penyusun moden memprofil kod untuk menggunakan pengoptimuman, satu tahap kecanggihan yang sering tiada dalam penyelidikan kecekapan ML.

Aliran Logik: Hujahnya menarik: 1) Tunjukkan penggabungan purata gagal dalam lapisan tidak linear (Rajah 1). 2) Cadangkan metrik untuk mengesan mod kegagalan ini (kelinearan). 3) Gunakan metrik untuk mengarahkan token. 4) Betulkan operasi yang gagal (gabung purata) dengan MLERP. Aliran daripada pengenalpastian masalah kepada penyelesaian pelbagai komponen adalah bersih dan logik.

Kekuatan & Kelemahan:
Kekuatan: Pendekatan hibrid adalah kukuh secara teori dan disahkan secara empirikal merentasi tugas. MLERP adalah pembetulan ringkas namun bijak kepada masalah sebenar (keruntuhan norm). Kebolehgunaan zero-shot adalah kelebihan praktikal utama untuk menggunakan model sedia ada.
Kelemahan: Kertas kerja ini sedikit meremehkan overhead "penilaian kelinearan". Adakah ia profil yang dikira awal (statik) atau dikira secara langsung (overhead dinamik)? Manfaat MLERP, walaupun jelas, kelihatan sederhana dalam pengelasan; nilainya yang sebenar kelihatan lebih ketara dalam tugas penjanaan, selaras dengan penemuan daripada literatur model penyebaran di mana taburan output adalah paling penting. Perbandingan, walaupun adil, boleh lebih agresif terhadap kaedah kuantisasi pasca-latihan terkini yang menawarkan manfaat ortogon.

Pandangan Boleh Tindak: Untuk pengamal: Segera gunakan ToFu/MLERP sebagai kaedah pengurangan token barisan pertama anda untuk ViT, terutamanya untuk tugas penjanaan. Ia menggantikan ToMe sebagai strategi penggabungan lalai. Untuk penyelidik: Paradigma "mampatan sedar lapisan" adalah pengajaran utama. Kerja masa depan harus memberi tumpuan kepada mengautomasikan pengesanan kawasan model yang mesra mampatan vs. sensitif mampatan, mungkin mengambil inspirasi daripada kerja pemangkasan rangkaian dalam CNN atau analisis keruntuhan mod dalam GAN seperti CycleGAN. Sempadan seterusnya adalah membina model yang secara semula jadi cekap melalui reka bentuk, menggunakan pandangan daripada kajian diagnostik sedemikian untuk memaklumkan carian seni bina, melangkaui sekadar mampatan pasca-hoc.