Unganishaji wa Tokeni (ToFu): Kuunganisha Uchujaji na Kuunganishwa kwa Tokeni kwa Ajili ya ViT Zenye Ufanisi

1. Utangulizi na Muhtasari

Vision Transformers (ViTs) zimeleta mapinduzi katika tasnia ya kompyuta ya kuona, lakini zinakabiliwa na gharama kubwa ya hesabu kutokana na utata wa quadratic wa umakini wa kibinafsi (self-attention) kuhusiana na idadi ya tokeni za pembejeo. Karatasi hii, Unganishaji wa Tokeni: Kuunganisha Pengo kati ya Uchujaji na Kuunganishwa kwa Tokeni, inatanguliza Unganishaji wa Tokeni (ToFu), mbinu mseto inayochagua kwa nguvu kati ya kuchuja na kuunganisha tokeni kulingana na tabia ya mfano ili kuboresha usawa wa ufanisi na usahihi.

Ufahamu wa msingi ni kwamba wala uchujaji (kutupa tokeni) wala kuunganishwa (kupata wastani wa tokeni) sio bora kwa kila hali. Karatasi inapendekeza njia yenye kanuni ya kuchagua operesheni inayofaa kwa kila safu, pamoja na mbinu mpya ya kuunganishwa inayoitwa MLERP (Multi-token Linear intERPolation) ili kushughulikia masuala ya mabadiliko ya usambazaji (distribution shift) katika kuunganishwa kwa wastani wa kawaida.

2. Mbinu ya Msingi: Unganishaji wa Tokeni (ToFu)

ToFu imejengwa juu ya uchambuzi wa majibu ya mfano kwa pembejeo zilizochanganuliwa (interpolated), kuamua ufaao wake kwa kuunganishwa au uchujaji.

2.1. Shida ya Uchujaji dhidi ya Kuunganishwa

Waandishi wanaelezea kigezo muhimu: uwiano wa mstari wa mfano (model linearity). Ikiwa safu ya mfano inajibu karibu kwa mstari kwa pembejeo zilizochanganuliwa (mfano, $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), kuunganisha tokeni zinazofanana kupitia wastani ni bora na huhifadhi taarifa. Hata hivyo, katika safu za mwanzo/za kina zisizo za mstari (kama inavyoonyeshwa kwenye Kielelezo chao cha 1), uchanganuzi wa mstari (linear interpolation) katika nafasi ya pembejeo husababisha matokeo yasiyo ya mstari kabisa, na kufanya kuunganishwa kwa wastani kuwa na shida na kusababisha mabadiliko ya usambazaji. Katika hali kama hizi, uchujaji wa tokeni zisizo muhimu sana ni njia salama zaidi, ingawa yenye upotezaji zaidi.

2.2. Mfumo wa ToFu

ToFu hufanya kazi kwa kila block ya transformer:

Upimaji wa Umuhimu wa Tokeni: Hupeana alama ya umuhimu kwa kila tokeni (mfano, kulingana na kawaida (norm) ya umakini au gradient).
Tathmini ya Uwiano wa Mstari (Linearity): Hutathmini uwiano wa mstari wa takriban wa safu, mara nyingi hupatikana kwa majaribio au kupitia kipimo nyepesi.
Operesheni Inayobadilika (Adaptive): Kwa lengo la kupunguza uwiano wa tokeni:
- Katika maeneo yenye uwiano wa mstari wa juu: Unganisha tokeni zisizo na umuhimu sana na majirani zao muhimu zaidi na zinazofanana.
- Katika maeneo yenye uwiano wa mstari wa chini: Chuja tokeni zisizo na umuhimu sana moja kwa moja.

Hii huunda mfumo wa ukandamizaji (compression) unaobadilika na unaoelewa muktadha.

2.3. MLERP: Kuunganishwa Kuhifadhi Kawaida (Norm)

Kuboresha zaidi kuliko wastani rahisi, waandishi wanapendekeza MLERP, marekebisho ya Spherical Linear Interpolation (SLERP) kwa ajili ya kuunganisha tokeni $K$. Kwa tokeni $t_1, t_2, ..., t_K$ zilizo na kawaida $n_i = ||t_i||$, MLERP kwanza huchanganua mwelekeo kwenye tufe ya kitengo na kisha kuongeza ukubwa kwa wastani wenye uzito wa kawaida asilia:

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

ambapo $w_i$ ni uzito unaotokana na umuhimu. Hii huhifadhi usambazaji wa kawaida wa takwimu wa vipengele, na kupunguza mabadiliko ya usambazaji yanayosababishwa na wastani wa kawaida, na kusababisha utendaji thabiti zaidi, hasa katika hali zisizo za mstari.

3. Maelezo ya Kiufundi na Uundaji wa Kihisabati

Karatasi hii inaweka wazi shida ya kupunguza tokeni. Acha safu iwe na tokeni za pembejeo $N$ $T = \{t_1, ..., t_N\}$. Lengo ni kutoa seti iliyopunguzwa $T'$ yenye tokeni $M < N$.

Milinganyo Muhimu:

Alama ya Umuhimu: $I(t_i) = ||\text{Attn}(t_i)||_1$ au kipimo kinachotokana na gradient.
Kipimo cha Ufanano: Kwa kawaida ufanano wa cosine $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
Kipimo cha Uwiano wa Mstari ($\mathcal{L}$): Hupimwa kwa kupotoka kwa matokeo ya safu kutoka kwa uchanganuzi wa mstari wa pembejeo. $\mathcal{L}$ ya chini inapendelea kuunganishwa; $\mathcal{L}$ ya juu inapendelea uchujaji.

Algorithm ya ToFu inaweza kutumika kwa miundo iliyofunzwa tayari bila marekebisho ya ziada (zero-shot) au kuboreshwa kwa mafunzo nyepesi.

4. Matokeo ya Majaribio na Utendaji

Waandishi wanatathmini ToFu kwenye kazi za uainishaji wa picha (ImageNet na ViT-B/16, DeiT) na uzalishaji wa picha (miundo ya usambazaji ya siri - latent diffusion models).

Viashiria Muhimu vya Utendaji

Uainishaji: ToFu hufikia usawa bora wa usahihi dhidi ya FLOPs kuliko mbinu za kuchuja pekee (mfano, DynamicViT) au kuunganishwa (ToMe). Kwa mfano, kwa kupunguzwa kwa FLOPs kwa 40%, ToFu hupoteza <0.5% usahihi wa juu-1 kwenye ImageNet, na kuzidi ToMe kwa takriban ~0.3%.
Uzalishaji wa Picha: Katika Stable Diffusion, ToFu hudumisha uhalisi wa juu wa kuona (uliopimwa na FID) kwa gharama ya hesabu iliyopunguzwa ikilinganishwa na ToMe, hasa wakati wa kupunguza idadi kubwa ya tokeni. Kuunganishwa kwa MLERP huonyesha faida wazi zaidi katika kazi za uzalishaji ambapo usambazaji wa matokeo ni muhimu.
Uchambuzi wa Kujiondoa (Ablation): Mkakati unaobadilika (kuchagua kuunganisha/kuchuja) unaonyeshwa kuwa bora zaidi kuliko kutumia operesheni moja tu katika safu zote. MLERP daima huzidi kuunganishwa kwa wastani.

Maelezo ya Chati (Kulingana na Kielelezo cha 1 cha Karatasi): Kielelezo kinaonyesha kutokuwa na mstari (non-linearity) kwa safu za ViT. Pointi mbili za vipengele vya pembejeo (x1, x2) zinachanganuliwa kwa mstari (mstari wenye rangi). Matokeo (f1-f4) kutoka safu nne tofauti za MLP ndani ya ViT yamepangwa. Matokeo ya MLP ya mwanzo na ya mwisho (f1, f4) yanaonyesha kupotoka kwa kiasi kikubwa kutoka kwa mstari wa moja kwa moja, ikionyesha kutokuwa na mstari kwa nguvu. Wastani wa pembejeo hizo mbili (nyota ya zambarau) huonyeshwa kwenye hatua ya matokeo mbali na wastani wa matokeo, na kuonyesha kwa macho kwa nini kuunganishwa kwa wastani kunaweza kushindwa katika safu zisizo za mstari.

5. Mfumo wa Uchambuzi na Mfano wa Kesi

Kesi: Kutumia ToFu kwa ViT Iliyofunzwa Tayari kwa Ajili ya Utumizi wa Makali (Edge Deployment)

Hali: Msanidi programu anahitaji kusimamia mfano wa ViT-B kwenye kifaa cha rununu kwa ajili ya uainishaji wa picha kwa wakati halisi. Mfano kamili ni mzito sana.

Utumizi wa Mfumo:

Uchambuzi wa Tabia (Profiling): Endesha seti ndogo ya data ya kalibrosheni kupitia mfano. Kwa kila block ya transformer, hesabu kipimo cha uwiano wa mstari $\mathcal{L}$ kwa kuchukua sampuli ya jozi za tokeni na kuangalia makosa ya uchanganuzi wa matokeo.
Ramani ya Mkakati: Unda wasifu: Block 1-3 (uwiano wa mstari wa chini) → pendekeza uchujaji. Block 4-8 (uwiano wa mstari wa juu) → pendekeza kuunganishwa kwa MLERP. Block za mwisho (uwiano wa mstari wa chini) → pendekeza uchujaji.
Usanidi: Weka bajeti ya jumla ya kupunguza tokeni (mfano, 35%). Tumia uchujaji katika block zenye uwiano wa mstari wa chini na kuunganishwa kwa MLERP katika block zenye uwiano wa mstari wa juu, ukizingatia bajeti za kila block zinazotokana na alama za umuhimu.
Tathmini: Tumia mfano uliokandamizwa. Njia inayobadilika inahakikisha upungufu mdogo wa usahihi ikilinganishwa na njia ya "ukubwa mmoja wote", kwani inazuia kuunganishwa kwa nguvu katika safu nyeti zisizo za mstari.

Mfano huu unaonyesha matumizi ya vitendo ya ToFu kama mfumo wa ukandamizaji wenye muundo, sio tu algorithm moja.

6. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Transformer za Njia Nyingi (Multimodal): Kupanua ToFu kwa video, sauti, au transformer za njia nyingi (mfano, CLIP, Flamingo) ambapo mienendo ya tokeni ni ngumu zaidi.
Usanifu wa Pamoja Unaozingatia Vifaa (Hardware-Aware Co-design): Kuboresha algorithm ya uamuzi wa ToFu (kuchuja/kuunganisha) na utekelezaji wa MLERP kwa vihimili maalum vya AI (NPUs, GPUs) ili kuongeza kasi halisi.
Unganishaji na Mbinu Nyingine: Kuchanganya ToFu na quantization, usafirishaji wa maarifa (knowledge distillation), au utaratibu wa umakini wenye ufanisi (kama Linformer) kwa faida za ufanisi zilizojumuishwa.
Utafutaji wa Otomatiki wa Vigezo vya Juu (Hyperparameter Search): Kutumia utafutaji wa usanifu wa neva (NAS) au ujifunzaji wa uthibitishaji (reinforcement learning) ili kubaini kiotomatiki uwiano bora wa kuchuja/kuunganisha kwa kila safu na kizingiti cha uwiano wa mstari.
Zaidi ya Kuona: Kuchunguza ufanisi wake katika Miundo Mikubwa ya Lugha (LLMs) kwa ajili ya ukandamizaji wa mlolongo, ingawa maana ya tokeni inatofautiana kwa kiasi kikubwa.

7. Marejeo

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. Uchambuzi wa Mtaalamu na Ufahamu Muhimu

Ufahamu wa Msingi: ToFu sio tu zana nyingine ya ukandamizaji; ni utambuzi rasmi kwamba safu za transformer ni tofauti. Kuchukulia safu zote kwa kanuni moja ya ukandamizaji ni upuuzi. Uzuri wa karatasi hii uko katika njia yake ya utambuzi—kupima uwiano wa mstari wa safu ili kupendekeza "upasuaji" sahihi (kuchuja au kuunganisha). Hii inakumbusha jinsi makusanyaji ya kisasa (compilers) yanavyochambua msimbo ili kutumia uboreshaji, kiwango cha ustadi ambacho mara nyingi hakipo katika utafiti wa ufanisi wa ML.

Mtiririko wa Mantiki: Hoja ni ya kulazimisha: 1) Onyesha kuunganishwa kwa wastani kunashindwa katika safu zisizo za mstari (Kielelezo 1). 2) Pendekeza kipimo cha kugundua hali hii ya kushindwa (uwiano wa mstari). 3) Tumia kipimo hicho kuelekeza tokeni. 4) Rekebisha operesheni inayoshindwa (kuunganishwa kwa wastani) kwa MLERP. Mtiririko kutoka utambuzi wa shida hadi suluhisho lenye vipengele vingi ni safi na ya kimantiki.

Nguvu na Mapungufu:
Nguvu: Njia mseto ina msingi wa kinadharia na imethibitishwa kwa majaribio katika kazi mbalimbali. MLERP ni rekebisho rahisi lakini erevu la shida halisi (kuanguka kwa kawaida - norm collapse). Utumiaji wa zero-shot ni faida kubwa ya vitendo kwa ajili ya kutumia miundo iliyopo.
Mapungufu: Karatasi inapunguza kidogo mzigo wa "tathmini ya uwiano wa mstari." Je, ni wasifu uliohesabiwa awali (tuli) au unaohesabiwa wakati wa utekelezaji (mzigo wa nguvu unaobadilika)? Faida za MLERP, ingawa ziko wazi, zinaonekana kuwa ndogo katika uainishaji; thamani yake ya kweli inaonekana wazi zaidi katika kazi za uzalishaji, ikilingana na matokeo kutoka kwa fasihi ya miundo ya usambazaji ambapo usambazaji wa matokeo ni muhimu zaidi. Ulinganisho, ingawa ni wa haki, unaweza kuwa mkali zaidi dhidi ya mbinu za kisasa za quantization baada ya mafunzo ambazo hutoa faida za ziada.

Ufahamu Unaoweza Kutekelezwa: Kwa watendaji: Chukua mara moja ToFu/MLERP kama njia yako ya kwanza ya kupunguza tokeni kwa ViT, hasa kwa kazi za uzalishaji. Inachukua nafasi ya ToMe kama mkakati wa chaguomsingi wa kuunganishwa. Kwa watafiti: Dhana ya "ukandamizaji unaoelewa safu" ndio ujumbe muhimu. Kazi ya baadaye inapaswa kuzingatia kuweka otomatiki utambuzi wa maeneo ya mfano yanayokubali ukandamizaji dhidi ya yale yasiyokubali, labda kuchota ujumbe kutoka kwa kazi ya uchujaji wa mtandao katika CNN au uchambuzi wa kuanguka kwa hali (mode collapse) katika GAN kama CycleGAN. Upeo unaofuata ni kujenga miundo ambayo kwa asili yake ni yenye ufanisi kwa kubuni, kwa kutumia ufahamu kutoka kwa masomo ya utambuzi kama haya kutoa taarifa kwa utafutaji wa usanifu, na kuendelea zaidi ya ukandamizaji wa baada ya tukio.