टोकन फ्यूज़न: कुशल विज़न ट्रांसफॉर्मर के लिए टोकन प्रूनिंग और मर्जिंग के बीच सेतु

1. परिचय एवं सिंहावलोकन

विज़न ट्रांसफॉर्मर (वीआईटी) ने कंप्यूटर विज़न में क्रांति ला दी है, लेकिन इनपुट टोकन की संख्या के संबंध में सेल्फ-अटेंशन की द्विघात जटिलता के कारण इनकी कम्प्यूटेशनल लागत अधिक है। यह शोधपत्र, टोकन फ्यूज़न: टोकन प्रूनिंग और टोकन मर्जिंग के बीच की खाई को पाटना, टोकन फ्यूज़न (टोफू) का परिचय देता है, जो एक संकर पद्धति है जो दक्षता-सटीकता के व्यापार को अनुकूलित करने के लिए मॉडल व्यवहार के आधार पर प्रूनिंग और मर्जिंग टोकन के बीच गतिशील रूप से चयन करती है।

मूल अंतर्दृष्टि यह है कि न तो प्रूनिंग (टोकन को हटाना) और न ही मर्जिंग (टोकन का औसत निकालना) सार्वभौमिक रूप से इष्टतम है। शोधपत्र प्रति परत उचित कार्य का चयन करने का एक सिद्धांत-आधारित तरीका प्रस्तावित करता है, जिसे मानक औसत मर्जिंग में वितरण परिवर्तन के मुद्दों को संबोधित करने के लिए एमएलईआरपी (मल्टी-टोकन लीनियर इंटरपोलेशन) नामक एक नवीन मर्जिंग तकनीक के साथ जोड़ा गया है।

2. मूल पद्धति: टोकन फ्यूज़न (टोफू)

टोफू का निर्माण इंटरपोलेटेड इनपुट के प्रति मॉडल की प्रतिक्रिया के विश्लेषण पर आधारित है, जो मर्जिंग या प्रूनिंग के लिए इसकी उपयुक्तता निर्धारित करता है।

2.1. प्रूनिंग बनाम मर्जिंग की दुविधा

लेखक एक प्रमुख मानदंड की पहचान करते हैं: मॉडल रैखिकता। यदि कोई मॉडल परत इंटरपोलेटेड इनपुट के प्रति लगभग रैखिक रूप से प्रतिक्रिया करती है (जैसे, $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), तो औसत निकालकर समान टोकन को मर्ज करना प्रभावी है और सूचना को संरक्षित रखता है। हालाँकि, प्रारंभिक/गहरी गैर-रैखिक परतों में (जैसा कि उनके चित्र 1 में दृश्यमान है), इनपुट स्पेस में रैखिक इंटरपोलेशन अत्यधिक गैर-रैखिक आउटपुट की ओर ले जाता है, जिससे औसत मर्जिंग समस्याग्रस्त हो जाती है और संभावित रूप से वितरण परिवर्तन का कारण बनती है। ऐसे मामलों में, कम महत्वपूर्ण टोकन को प्रून करना एक सुरक्षित, हालांकि अधिक हानिकारक, विकल्प है।

2.2. टोफू ढांचा

टोफू प्रति ट्रांसफॉर्मर ब्लॉक संचालित होता है:

टोकन महत्व स्कोरिंग: प्रत्येक टोकन को एक महत्व स्कोर निर्दिष्ट करता है (जैसे, अटेंशन मानक या ग्रेडिएंट के आधार पर)।
रैखिकता मूल्यांकन: परत की अनुमानित रैखिकता का मूल्यांकन करता है, जो अक्सर अनुभवजन्य रूप से या एक हल्के प्रोब के माध्यम से प्राप्त की जाती है।
अनुकूली कार्य: एक लक्षित टोकन कमी अनुपात के लिए:
- उच्च-रैखिकता क्षेत्रों में: कम से कम महत्वपूर्ण टोकन को उनके सबसे समान, महत्वपूर्ण पड़ोसियों के साथ मर्ज करें।
- निम्न-रैखिकता क्षेत्रों में: कम से कम महत्वपूर्ण टोकन को सीधे प्रून करें।

यह एक गतिशील, संदर्भ-जागरूक संपीड़न पाइपलाइन बनाता है।

2.3. एमएलईआरपी: मानक-संरक्षी मर्जिंग

सरल औसत निकालने में सुधार के लिए, लेखक एमएलईआरपी प्रस्तावित करते हैं, जो $K$ टोकन को मर्ज करने के लिए गोलाकार रैखिक इंटरपोलेशन (एसएलईआरपी) का एक अनुकूलन है। मानक $n_i = ||t_i||$ वाले टोकन $t_1, t_2, ..., t_K$ के लिए, एमएलईआरपी पहले इकाई गोले पर दिशाओं का इंटरपोलेशन करता है और फिर मूल मानकों के भारित औसत द्वारा स्केल करता है:

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

जहाँ $w_i$ महत्व-आधारित भार हैं। यह सुविधाओं के सांख्यिकीय मानक वितरण को संरक्षित रखता है, जिससे सरल औसत निकालने के कारण होने वाले वितरण परिवर्तन को कम किया जाता है और विशेष रूप से गैर-रैखिक व्यवस्थाओं में अधिक स्थिर प्रदर्शन प्राप्त होता है।

3. तकनीकी विवरण एवं गणितीय सूत्रीकरण

शोधपत्र टोकन कमी समस्या को औपचारिक रूप देता है। मान लीजिए कि एक परत में $N$ इनपुट टोकन $T = \{t_1, ..., t_N\}$ हैं। लक्ष्य $M < N$ टोकन वाला एक कम सेट $T'$ उत्पन्न करना है।

मुख्य समीकरण:

महत्व स्कोर: $I(t_i) = ||\text{Attn}(t_i)||_1$ या ग्रेडिएंट-आधारित माप।
समानता मीट्रिक: आमतौर पर कोसाइन समानता $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$।
रैखिकता मीट्रिक ($\mathcal{L}$): इनपुट के रैखिक इंटरपोलेशन से परत आउटपुट के विचलन द्वारा मापा जाता है। कम $\mathcal{L}$ मर्जिंग का पक्ष लेता है; उच्च $\mathcal{L}$ प्रूनिंग का पक्ष लेता है।

टोफू एल्गोरिदम को बिना फाइन-ट्यूनिंग (जीरो-शॉट) के पूर्व-प्रशिक्षित मॉडल पर लागू किया जा सकता है या हल्के प्रशिक्षण के साथ बढ़ाया जा सकता है।

4. प्रायोगिक परिणाम एवं प्रदर्शन

लेखक छवि वर्गीकरण (वीआईटी-बी/16, डीईआईटी के साथ इमेजनेट) और छवि जनन (लेटेंट डिफ्यूज़न मॉडल) कार्यों पर टोफू का मूल्यांकन करते हैं।

प्रमुख प्रदर्शन हाइलाइट्स

वर्गीकरण: टोफू स्वतंत्र प्रूनिंग (जैसे, डायनामिकवीआईटी) या मर्जिंग (टूमी) पद्धतियों की तुलना में सटीकता बनाम एफएलओपीएस के व्यापार में बेहतर प्रदर्शन प्राप्त करता है। उदाहरण के लिए, 40% एफएलओपीएस कमी पर, टोफू इमेजनेट पर <0.5% टॉप-1 सटीकता खोता है, जो टूमी से ~0.3% बेहतर है।
छवि जनन: स्टेबल डिफ्यूज़न में, टोफू कम कम्प्यूटेशनल लागत पर टूमी की तुलना में उच्च दृश्य निष्ठा (एफआईडी द्वारा मापी गई) बनाए रखता है, विशेष रूप से बड़ी संख्या में टोकन कम करते समय। एमएलईआरपी मर्जिंग जनन कार्यों में स्पष्ट लाभ दिखाती है जहाँ आउटपुट वितरण महत्वपूर्ण है।
अपक्षरण: यह दिखाया गया है कि अनुकूली रणनीति (मर्ज/प्रून का चयन) सभी परतों में विशेष रूप से किसी एक कार्य का उपयोग करने से श्रेष्ठ है। एमएलईआरपी लगातार औसत मर्जिंग से बेहतर प्रदर्शन करती है।

चार्ट विवरण (शोधपत्र के चित्र 1 के आधार पर): यह चित्र वीआईटी परतों की गैर-रैखिकता को दर्शाता है। दो इनपुट फीचर बिंदुओं (x1, x2) को रैखिक रूप से इंटरपोलेट किया जाता है (रंगीन रेखा)। वीआईटी के अंदर चार अलग-अलग एमएलपी परतों से आउटपुट (f1-f4) प्लॉट किए गए हैं। प्रारंभिक और अंतिम एमएलपी आउटपुट (f1, f4) सीधी रेखा से महत्वपूर्ण विचलन दिखाते हैं, जो मजबूत गैर-रैखिकता का संकेत देता है। दो इनपुट का औसत (बैंगनी तारा) आउटपुट के औसत से दूर एक आउटपुट बिंदु पर मैप होता है, जो दृश्य रूप से प्रदर्शित करता है कि गैर-रैखिक परतों में औसत मर्जिंग क्यों विफल हो सकती है।

5. विश्लेषण ढांचा एवं केस उदाहरण

केस: एज डिप्लॉयमेंट के लिए पूर्व-प्रशिक्षित वीआईटी पर टोफू लागू करना

परिदृश्य: एक डेवलपर को रीयल-टाइम छवि वर्गीकरण के लिए मोबाइल डिवाइस पर वीआईटी-बी मॉडल चलाने की आवश्यकता है। पूरा मॉडल बहुत धीमा है।

ढांचा अनुप्रयोग:

प्रोफाइलिंग: मॉडल के माध्यम से एक छोटा कैलिब्रेशन डेटासेट चलाएं। प्रत्येक ट्रांसफॉर्मर ब्लॉक के लिए, टोकन जोड़े का नमूना लेकर और आउटपुट इंटरपोलेशन त्रुटि की जाँच करके रैखिकता मीट्रिक $\mathcal{L}$ की गणना करें।
रणनीति मानचित्र: एक प्रोफाइल बनाएं: ब्लॉक 1-3 (निम्न रैखिकता) → प्रूनिंग को प्राथमिकता दें। ब्लॉक 4-8 (उच्च रैखिकता) → एमएलईआरपी मर्जिंग को प्राथमिकता दें। अंतिम ब्लॉक (निम्न रैखिकता) → प्रूनिंग को प्राथमिकता दें।
कॉन्फ़िगरेशन: एक वैश्विक टोकन कमी बजट सेट करें (जैसे, 35%)। महत्व स्कोर से प्राप्त प्रति-ब्लॉक बजट का सम्मान करते हुए, निम्न-रैखिकता ब्लॉकों में प्रूनिंग और उच्च-रैखिकता ब्लॉकों में एमएलईआरपी मर्जिंग लागू करें।
मूल्यांकन: संपीड़ित मॉडल को डिप्लॉय करें। अनुकूली दृष्टिकोण सुनिश्चित करता है कि एक-आकार-सभी-पर-फिट पद्धति की तुलना में सटीकता में न्यूनतम गिरावट आए, क्योंकि यह संवेदनशील गैर-रैखिक परतों में आक्रामक मर्जिंग से बचता है।

यह उदाहरण टोफू की व्यावहारिक उपयोगिता को एक संरचित संपीड़न ढांचे के रूप में प्रदर्शित करता है, न कि केवल एक एकीकृत एल्गोरिदम के रूप में।

6. भविष्य के अनुप्रयोग एवं शोध दिशाएँ

मल्टीमॉडल ट्रांसफॉर्मर: टोफू को वीडियो, ऑडियो, या मल्टीमॉडल (जैसे, सीएलआईपी, फ्लेमिंगो) ट्रांसफॉर्मर तक विस्तारित करना जहाँ टोकन गतिशीलता अधिक जटिल है।
हार्डवेयर-जागरूक सह-डिजाइन: वास्तविक गति बढ़ाने के लिए विशिष्ट एआई एक्सेलेरेटर (एनपीयू, जीपीयू) के लिए टोफू निर्णय एल्गोरिदम (प्रून/मर्ज) और एमएलईआरपी कार्यान्वयन का अनुकूलन करना।
अन्य तकनीकों के साथ एकीकरण: चक्रवृद्धि दक्षता लाभ के लिए टोफू को क्वांटिज़ेशन, नॉलेज डिस्टिलेशन, या कुशल अटेंशन तंत्र (जैसे लिनफॉर्मर) के साथ संयोजित करना।
स्वचालित हाइपरपैरामीटर खोज: इष्टतम प्रति-परत प्रूनिंग/मर्जिंग अनुपात और रैखिकता सीमा निर्धारित करने के लिए न्यूरल आर्किटेक्चर सर्च (एनएएस) या रीइन्फोर्समेंट लर्निंग का उपयोग करना।
विज़न से परे: अनुक्रम संपीड़न के लिए बड़े भाषा मॉडल (एलएलएम) में इसकी प्रभावकारिता का अन्वेषण करना, हालाँकि टोकन शब्दार्थ काफी भिन्न होते हैं।

7. संदर्भ

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. विशेषज्ञ विश्लेषण एवं गंभीर अंतर्दृष्टि

मूल अंतर्दृष्टि: टोफू केवल एक और संपीड़न उपकरण नहीं है; यह एक औपचारिक मान्यता है कि ट्रांसफॉर्मर परतें विषमजात हैं। सभी परतों को एक ही संपीड़न आदिम के साथ व्यवहार करना भोला है। शोधपत्र की प्रतिभा इसके नैदानिक दृष्टिकोण में निहित है—सही "सर्जरी" (प्रून या मर्ज) निर्धारित करने के लिए परत रैखिकता को मापना। यह इस बात की याद दिलाता है कि आधुनिक कंपाइलर अनुकूलन लागू करने के लिए कोड की प्रोफाइलिंग कैसे करते हैं, एमएल दक्षता शोध में अक्सर इस स्तर की परिष्कृति गायब रहती है।

तार्किक प्रवाह: तर्क प्रभावशाली है: 1) दिखाएँ कि औसत मर्जिंग गैर-रैखिक परतों में विफल होती है (चित्र 1)। 2) इस विफलता मोड (रैखिकता) का पता लगाने के लिए एक मीट्रिक प्रस्तावित करें। 3) टोकन को रूट करने के लिए मीट्रिक का उपयोग करें। 4) एमएलईआरपी के साथ विफल कार्य (औसत मर्ज) को ठीक करें। समस्या की पहचान से लेकर बहु-घटक समाधान तक का प्रवाह साफ और तार्किक है।

शक्तियाँ एवं दोष:
शक्तियाँ: संकर दृष्टिकोण सैद्धांतिक रूप से ठोस है और कार्यों में अनुभवजन्य रूप से मान्य है। एमएलईआरपी एक वास्तविक समस्या (मानक पतन) का एक सरल लेकिन चतुर समाधान है। जीरो-शॉट लागू करने की क्षमता मौजूदा मॉडल को डिप्लॉय करने के लिए एक प्रमुख व्यावहारिक लाभ है।
दोष: शोधपत्र "रैखिकता मूल्यांकन" के ओवरहेड को थोड़ा कम आंकता है। क्या यह एक पूर्व-गणित प्रोफाइल (स्थैतिक) है या गतिशील रूप से गणना की गई (गतिशील ओवरहेड)? एमएलईआरपी के लाभ, हालांकि स्पष्ट हैं, वर्गीकरण में मामूली प्रतीत होते हैं; इसका वास्तविक मूल्य जनन कार्यों में अधिक स्पष्ट प्रतीत होता है, जो डिफ्यूज़न मॉडल साहित्य से निष्कर्षों के साथ संरेखित होता है जहाँ आउटपुट वितरण सर्वोपरि है। तुलना, हालांकि निष्पक्ष है, अत्याधुनिक पोस्ट-ट्रेनिंग क्वांटिज़ेशन पद्धतियों के खिलाफ अधिक आक्रामक हो सकती है जो ऑर्थोगोनल लाभ प्रदान करती हैं।

कार्रवाई योग्य अंतर्दृष्टि: व्यवसायियों के लिए: वीआईटी के लिए अपनी प्रथम-पंक्ति टोकन कमी पद्धति के रूप में तुरंत टोफू/एमएलईआरपी को अपनाएं, विशेष रूप से जनन कार्यों के लिए। यह डिफ़ॉल्ट मर्जिंग रणनीति के रूप में टूमी को प्रतिस्थापित करता है। शोधकर्ताओं के लिए: "परत-जागरूक संपीड़न" प्रतिमान प्रमुख निष्कर्ष है। भविष्य के कार्य को संपीड़न-अनुकूल बनाम संपीड़न-संवेदनशील मॉडल क्षेत्रों का स्वचालित पता लगाने पर ध्यान केंद्रित करना चाहिए, शायद सीएनएन में नेटवर्क प्रूनिंग पर काम या साइकलजीएएन जैसे जीएएन में मोड पतन के विश्लेषण से प्रेरणा लेकर। अगली सीमा ऐसे नैदानिक अध्ययनों से प्राप्त अंतर्दृष्टि का उपयोग करके आर्किटेक्चर सर्च को सूचित करने के लिए, केवल पोस्ट-हॉक संपीड़न से परे जाकर, स्वाभाविक रूप से दक्ष डिजाइन द्वारा मॉडल बनाना है।