Token Füzyonu: Verimli Görüntü Dönüştürücüler için Token Budama ve Birleştirmeyi Köprüleyen Yöntem

1. Giriş ve Genel Bakış

Vision Transformer'lar (ViT'ler) bilgisayarlı görüyü devrimleştirdi ancak girdi token sayısına göre self-attention'ın ikinci dereceden karmaşıklığı nedeniyle yüksek hesaplama maliyetinden muzdariptir. Bu makale, Token Füzyonu: Token Budama ve Token Birleştirme Arasındaki Boşluğu Köprülemek, model davranışına dayanarak verimlilik-doğruluk dengesini optimize etmek için token'lar arasında budama ve birleştirme işlemlerini dinamik olarak seçen hibrit bir yöntem olan Token Füzyonu'nu (ToFu) tanıtmaktadır.

Temel içgörü, ne budamanın (token'ları atma) ne de birleştirmenin (token'ları ortalamalama) evrensel olarak optimal olmadığıdır. Makale, katman başına uygun işlemi seçmek için ilkeli bir yol ve standart ortalama birleştirmedeki dağılım kayması sorunlarını ele almak için MLERP (Çoklu Token Doğrusal İnterpolasyonu) adlı yeni bir birleştirme tekniği önermektedir.

2. Temel Metodoloji: Token Füzyonu (ToFu)

ToFu, bir modelin interpolasyonlu girdilere verdiği yanıtın analizi üzerine kuruludur ve birleştirme veya budama için uygunluğunu belirler.

2.1. Budama ve Birleştirme İkilemi

Yazarlar önemli bir kriter belirlemiştir: model doğrusallığı. Eğer bir model katmanı interpolasyonlu girdilere neredeyse doğrusal yanıt veriyorsa (örn., $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), benzer token'ları ortalamalama yoluyla birleştirmek etkilidir ve bilgiyi korur. Ancak, erken/derin doğrusal olmayan katmanlarda (Şekil 1'de görselleştirildiği gibi), girdi uzayındaki doğrusal interpolasyon, yüksek derecede doğrusal olmayan çıktılara yol açar, bu da ortalama birleştirmeyi sorunlu hale getirir ve potansiyel olarak dağılım kaymalarına neden olabilir. Bu gibi durumlarda, daha az önemli token'ları budamak daha güvenli, ancak daha fazla bilgi kaybına yol açan bir alternatiftir.

2.2. ToFu Çerçevesi

ToFu, transformer bloğu başına çalışır:

Token Önem Puanlama: Her bir token'a bir önem puanı atar (örn., attention norm'u veya gradyanına dayalı).
Doğrusallık Değerlendirmesi: Katmanın yaklaşık doğrusallığını değerlendirir, genellikle ampirik olarak veya hafif bir prob aracılığıyla türetilir.
Uyarlanabilir İşlem: Hedef token azaltma oranı için:
- Yüksek doğrusallık bölgelerinde: En az önemli token'ları, en benzer, önemli komşularıyla birleştir.
- Düşük doğrusallık bölgelerinde: En az önemli token'ları doğrudan buda.

Bu, dinamik, bağlam-bilinirli bir sıkıştırma işlem hattı oluşturur.

2.3. MLERP: Norm Koruyucu Birleştirme

Basit ortalamayı iyileştirmek için yazarlar, $K$ token'ı birleştirmek için Küresel Doğrusal İnterpolasyon'un (SLERP) bir uyarlaması olan MLERP'i önermektedir. Normları $n_i = ||t_i||$ olan $t_1, t_2, ..., t_K$ token'ları için MLERP önce birim küre üzerindeki yönleri interpolasyonlar, ardından orijinal normların ağırlıklı ortalamasıyla ölçeklendirir:

$t_{\text{birleştirilmiş}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

Burada $w_i$, öneme dayalı ağırlıklardır. Bu, özelliklerin istatistiksel norm dağılımını korur, saf ortalamanın neden olduğu dağılım kaymasını hafifletir ve özellikle doğrusal olmayan rejimlerde daha kararlı performansa yol açar.

3. Teknik Detaylar ve Matematiksel Formülasyon

Makale, token azaltma problemini resmileştirir. Bir katmanın $N$ girdi token'ı $T = \{t_1, ..., t_N\}$ olsun. Amaç, $M < N$ token içeren indirgenmiş bir $T'$ kümesi üretmektir.

Temel Denklemler:

Önem Puanı: $I(t_i) = ||\text{Attn}(t_i)||_1$ veya gradyan tabanlı bir ölçüm.
Benzerlik Metriği: Tipik olarak kosinüs benzerliği $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
Doğrusallık Metriği ($\mathcal{L}$): Katman çıktılarının girdilerin doğrusal interpolasyonundan sapmasıyla ölçülür. Düşük $\mathcal{L}$ birleştirmeyi tercih eder; yüksek $\mathcal{L}$ budamayı tercih eder.

ToFu algoritması, ince ayar yapılmadan (sıfır atış) önceden eğitilmiş modellere uygulanabilir veya hafif eğitimle geliştirilebilir.

4. Deneysel Sonuçlar ve Performans

Yazarlar ToFu'yu görüntü sınıflandırma (ImageNet ile ViT-B/16, DeiT) ve görüntü üretimi (latent diffusion modelleri) görevlerinde değerlendirmiştir.

Ana Performans Özeti

Sınıflandırma: ToFu, tek başına budama (örn., DynamicViT) veya birleştirme (ToMe) yöntemlerinden daha iyi bir doğruluk vs. FLOPs dengesi elde eder. Örneğin, %40 FLOPs azaltmada, ToFu ImageNet'te <%0.5 top-1 doğruluk kaybeder, ToMe'yi ~%0.3 oranında geride bırakır.
Görüntü Üretimi: Stable Diffusion'da, ToFu, özellikle çok sayıda token azaltırken, ToMe'ye kıyasla azaltılmış hesaplama maliyetinde daha yüksek görsel sadakati (FID ile ölçülen) korur. MLERP birleştirme, çıktı dağılımının kritik olduğu üretim görevlerinde daha net bir avantaj gösterir.
Ablasyon: Uyarlanabilir strateji (birleştirme/budama seçimi), tüm katmanlarda yalnızca bir işlem kullanmaktan üstün gösterilmiştir. MLERP sürekli olarak ortalama birleştirmeyi geride bırakır.

Grafik Açıklaması (Makalenin Şekil 1'ine Dayalı): Şekil, ViT katmanlarının doğrusal olmama durumunu göstermektedir. İki girdi özellik noktası (x1, x2) doğrusal olarak interpolasyonlanır (renkli çizgi). ViT içindeki dört farklı MLP katmanından gelen çıktılar (f1-f4) çizilir. Erken ve geç MLP çıktıları (f1, f4) düz bir çizgiden önemli sapma gösterir, bu da güçlü bir doğrusal olmama durumunu gösterir. İki girdinin ortalaması (mor yıldız), çıktıların ortalamasından uzak bir çıktı noktasına eşlenir, bu da ortalama birleştirmenin neden doğrusal olmayan katmanlarda başarısız olabileceğini görsel olarak gösterir.

5. Analiz Çerçevesi ve Vaka Örneği

Vaka: Önceden Eğitilmiş Bir ViT'e ToFu Uygulayarak Kenar Dağıtımı

Senaryo: Bir geliştirici, gerçek zamanlı görüntü sınıflandırması için bir mobil cihazda ViT-B modelini çalıştırmak istemektedir. Tam model çok yavaştır.

Çerçeve Uygulaması:

Profil Oluşturma: Model üzerinden küçük bir kalibrasyon veri seti çalıştırın. Her transformer bloğu için, token çiftleri örnekleyerek ve çıktı interpolasyon hatasını kontrol ederek doğrusallık metriği $\mathcal{L}$'yi hesaplayın.
Strateji Haritası: Bir profil oluşturun: Blok 1-3 (düşük doğrusallık) → budamayı tercih et. Blok 4-8 (yüksek doğrusallık) → MLERP birleştirmeyi tercih et. Son bloklar (düşük doğrusallık) → budamayı tercih et.
Yapılandırma: Küresel bir token azaltma bütçesi belirleyin (örn., %35). Düşük doğrusallık bloklarında budama, yüksek doğrusallık bloklarında ise önem puanlarından türetilen blok başı bütçelere uyarak MLERP birleştirme uygulayın.
Değerlendirme: Sıkıştırılmış modeli dağıtın. Uyarlanabilir yaklaşım, hassas doğrusal olmayan katmanlarda agresif birleştirmeden kaçındığı için, tek tip bir yönteme kıyasla minimum doğruluk düşüşü sağlar.

Bu örnek, ToFu'nun sadece monolitik bir algoritma değil, yapılandırılmış bir sıkıştırma çerçevesi olarak pratik faydasını göstermektedir.

6. Gelecekteki Uygulamalar ve Araştırma Yönleri

Çok Modlu Transformer'lar: ToFu'nun token dinamiklerinin daha karmaşık olduğu video, ses veya çok modlu (örn., CLIP, Flamingo) transformer'lara genişletilmesi.
Donanım Farkında Ortak Tasarım: ToFu karar algoritmasını (budama/birleştirme) ve MLERP uygulamasını, belirli AI hızlandırıcıları (NPU'lar, GPU'lar) için optimize ederek gerçek hızlanmayı maksimize etmek.
Diğer Tekniklerle Entegrasyon: ToFu'nun nicemleme, bilgi damıtımı veya verimli attention mekanizmaları (Linformer gibi) ile birleştirilerek katlanmış verimlilik kazanımları elde edilmesi.
Otomatik Hiperparametre Arama: Sinirsel mimari arama (NAS) veya pekiştirmeli öğrenme kullanarak katman başı optimal budama/birleştirme oranını ve doğrusallık eşiğini otomatik olarak belirlemek.
Görüntünün Ötesinde: Büyük Dil Modelleri'nde (LLM) dizi sıkıştırma için etkinliğinin araştırılması, ancak token anlambilimi önemli ölçüde farklılık göstermektedir.

7. Referanslar

Dosovitskiy, A., vd. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., vd. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., vd. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., vd. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., vd. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., vd. "Attention Is All You Need." NeurIPS 2017.

8. Uzman Analizi ve Eleştirel İçgörüler

Temel İçgörü: ToFu sadece başka bir sıkıştırma aracı değildir; transformer katmanlarının heterojen olduğunun resmi bir kabulüdür. Tüm katmanları aynı sıkıştırma ilkel işlemiyle ele almak naif bir yaklaşımdır. Makalenin parlaklığı, doğru "ameliyatı" (budama veya birleştirme) reçete etmek için katman doğrusallığını ölçen teşhis yaklaşımında yatmaktadır. Bu, modern derleyicilerin optimizasyonları uygulamak için kodu nasıl profilediğini hatırlatır, ML verimlilik araştırmalarında genellikle eksik olan bir sofistikasyon seviyesidir.

Mantıksal Akış: Argüman ikna edicidir: 1) Ortalama birleştirmenin doğrusal olmayan katmanlarda başarısız olduğunu göster (Şekil 1). 2) Bu başarısızlık modunu tespit etmek için bir metrik öner (doğrusallık). 3) Token'ları yönlendirmek için metriği kullan. 4) Başarısız işlemi (ortalama birleştirme) MLERP ile düzelt. Problem tanımlamasından çok bileşenli bir çözüme doğru akış temiz ve mantıklıdır.

Güçlü ve Zayıf Yönler:
Güçlü Yönler: Hibrit yaklaşım teorik olarak sağlamdır ve görevler arasında ampirik olarak doğrulanmıştır. MLERP, gerçek bir soruna (norm çöküşü) basit ama zekice bir çözümdür. Sıfır atış uygulanabilirliği, mevcut modelleri dağıtmak için büyük bir pratik avantajdır.
Zayıf Yönler: Makale, "doğrusallık değerlendirmesi"nin ek yükünü biraz hafife almaktadır. Bu önceden hesaplanmış bir profil mi (statik) yoksa anlık olarak mı hesaplanıyor (dinamik ek yük)? MLERP'nin faydaları, sınıflandırmada mütevazı görünse de, gerçek değeri özellikle çıktı dağılımının en önemli olduğu diffusion model literatüründeki bulgularla uyumlu olarak, üretim görevlerinde daha belirgin görünmektedir. Karşılaştırma adil olsa da, ortogonal faydalar sunan en son eğitim sonrası nicemleme yöntemlerine karşı daha agresif olabilirdi.

Uygulanabilir İçgörüler: Uygulayıcılar için: ToFu/MLERP'yi, özellikle üretim görevleri için ViT'ler için birinci basamak token azaltma yönteminiz olarak hemen benimseyin. Varsayılan birleştirme stratejisi olarak ToMe'nin yerini alır. Araştırmacılar için: "Katman farkında sıkıştırma" paradigması anahtar çıkarımdır. Gelecekteki çalışmalar, CNN'lerde ağ budama veya CycleGAN gibi GAN'larda mod çöküşü analizi çalışmalarından ilham alarak, sıkıştırmaya uygun ve sıkıştırmaya duyarlı model bölgelerinin otomatik tespitine odaklanmalıdır. Bir sonraki sınır, bu tür teşhis çalışmalarından elde edilen içgörüleri mimari aramayı bilgilendirmek için kullanarak, sadece sonradan sıkıştırmanın ötesine geçerek, doğası gereği verimli modeller inşa etmektir.