همجوشی توکن: پلی میان هرس و ادغام توکن برای ترانسفورم‌های بینایی کارآمد

1. مقدمه و مرور کلی

ترانسفورم‌های بینایی (ViTs) انقلابی در بینایی کامپیوتر ایجاد کرده‌اند، اما به دلیل پیچیدگی درجه‌دوم توجه خودی (self-attention) نسبت به تعداد توکن‌های ورودی، از هزینه محاسباتی بالایی رنج می‌برند. این مقاله با عنوان همجوشی توکن: پلی بر شکاف میان هرس توکن و ادغام توکن، روش همجوشی توکن (ToFu) را معرفی می‌کند؛ یک روش ترکیبی که به صورت پویا بر اساس رفتار مدل، بین هرس و ادغام توکن‌ها انتخاب می‌کند تا بهینه‌سازی مبادله کارایی-دقت را انجام دهد.

بینش اصلی این است که نه هرس (دور انداختن توکن‌ها) و نه ادغام (میانگین‌گیری توکن‌ها) به طور جهانی بهینه نیستند. مقاله راهی اصولی برای انتخاب عملیات مناسب در هر لایه پیشنهاد می‌دهد، همراه با یک تکنیک ادغام نوآورانه به نام MLERP (درون‌یابی خطی چندتوکنی) برای حل مسئله جابجایی توزیع در ادغام میانگین استاندارد.

2. روش‌شناسی هسته: همجوشی توکن (ToFu)

ToFu بر اساس تحلیل پاسخ مدل به ورودی‌های درون‌یابی شده بنا شده است تا مناسب بودن آن برای ادغام یا هرس را تعیین کند.

2.1. معضل هرس در مقابل ادغام

نویسندگان یک معیار کلیدی را شناسایی می‌کنند: خطی بودن مدل. اگر یک لایه مدل تقریباً به صورت خطی به ورودی‌های درون‌یابی شده پاسخ دهد (مثلاً $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$)، ادغام توکن‌های مشابه از طریق میانگین‌گیری مؤثر است و اطلاعات را حفظ می‌کند. با این حال، در لایه‌های غیرخطی اولیه/عمیق‌تر (همانطور که در شکل ۱ مقاله مصور شده است)، درون‌یابی خطی در فضای ورودی منجر به خروجی‌های بسیار غیرخطی می‌شود که ادغام میانگین را مسئله‌ساز کرده و به طور بالقوه باعث جابجایی توزیع می‌شود. در چنین مواردی، هرس توکن‌های کم‌اهمیت‌تر، جایگزینی امن‌تر، هرچند با اتلاف بیشتر، است.

2.2. چارچوب ToFu

ToFu در هر بلوک ترانسفورمر عمل می‌کند:

امتیازدهی اهمیت توکن: به هر توکن یک امتیاز اهمیت اختصاص می‌دهد (مثلاً بر اساس نُرم توجه یا گرادیان).
ارزیابی خطی بودن: خطی بودن تقریبی لایه را ارزیابی می‌کند، که اغلب به صورت تجربی یا از طریق یک پروب سبک‌وزن به دست می‌آید.
عملیات تطبیقی: برای یک نسبت کاهش توکن هدف:
- در مناطق با خطی بودن بالا: کم‌اهمیت‌ترین توکن‌ها را با مهم‌ترین و مشابه‌ترین همسایگانشان ادغام کن.
- در مناطق با خطی بودن پایین: کم‌اهمیت‌ترین توکن‌ها را مستقیماً هرس کن.

این امر یک خط لوله فشرده‌سازی پویا و آگاه از زمینه ایجاد می‌کند.

2.3. MLERP: ادغام با حفظ نُرم

برای بهبود نسبت به میانگین‌گیری ساده، نویسندگان MLERP را پیشنهاد می‌دهند که اقتباسی از درون‌یابی خطی کروی (SLERP) برای ادغام $K$ توکن است. برای توکن‌های $t_1, t_2, ..., t_K$ با نُرم‌های $n_i = ||t_i||$، MLERP ابتدا جهت‌ها را روی کره واحد درون‌یابی می‌کند و سپس با میانگین وزنی نُرم‌های اصلی مقیاس می‌دهد:

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

که در آن $w_i$ وزن‌های مبتنی بر اهمیت هستند. این روش توزیع نُرم آماری ویژگی‌ها را حفظ می‌کند، جابجایی توزیع ناشی از میانگین‌گیری ساده را کاهش می‌دهد و منجر به عملکرد پایدارتر، به ویژه در رژیم‌های غیرخطی می‌شود.

3. جزئیات فنی و فرمول‌بندی ریاضی

مقاله مسئله کاهش توکن را صوری می‌کند. فرض کنید یک لایه دارای $N$ توکن ورودی $T = \{t_1, ..., t_N\}$ باشد. هدف تولید مجموعه کاهش‌یافته $T'$ با $M < N$ توکن است.

معادلات کلیدی:

امتیاز اهمیت: $I(t_i) = ||\text{Attn}(t_i)||_1$ یا یک معیار مبتنی بر گرادیان.
معیار شباهت: معمولاً شباهت کسینوسی $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
معیار خطی بودن ($\mathcal{L}$): با انحراف خروجی‌های لایه از درون‌یابی خطی ورودی‌ها اندازه‌گیری می‌شود. مقدار کم $\mathcal{L}$ به ادغام تمایل دارد؛ مقدار زیاد $\mathcal{L}$ به هرس تمایل دارد.

الگوریتم ToFu را می‌توان روی مدل‌های از پیش آموزش‌دیده بدون تنظیم دقیق (صفر-شات) اعمال کرد یا با آموزش سبک تقویت نمود.

4. نتایج آزمایشی و عملکرد

نویسندگان ToFu را روی وظایف طبقه‌بندی تصویر (ImageNet با ViT-B/16, DeiT) و تولید تصویر (مدل‌های انتشار نهفته) ارزیابی می‌کنند.

نکات برجسته عملکرد کلیدی

طبقه‌بندی: ToFu به مبادله دقت در مقابل FLOPs بهتری نسبت به روش‌های مستقل هرس (مانند DynamicViT) یا ادغام (ToMe) دست می‌یابد. به عنوان مثال، در کاهش ۴۰٪ FLOPs، ToFu کمتر از ۰.۵٪ دقت top-1 را در ImageNet از دست می‌دهد و حدود ۰.۳٪ از ToMe بهتر عمل می‌کند.
تولید تصویر: در Stable Diffusion، ToFu در هزینه محاسباتی کاهش‌یافته، وفاداری بصری بالاتری (اندازه‌گیری شده با FID) را در مقایسه با ToMe حفظ می‌کند، به ویژه هنگام کاهش تعداد زیادی توکن. ادغام MLERP مزیت واضح‌تری در وظایف تولیدی نشان می‌دهد که توزیع خروجی حیاتی است.
حذف گزینشی (Ablation): نشان داده شده است که استراتژی تطبیقی (انتخاب ادغام/هرس) در تمام لایه‌ها برتر از استفاده انحصاری از هر یک از عملیات است. MLERP به طور مداوم از ادغام میانگین بهتر عمل می‌کند.

توضیح نمودار (بر اساس شکل ۱ مقاله): شکل غیرخطی بودن لایه‌های ViT را نشان می‌دهد. دو نقطه ویژگی ورودی (x1, x2) به صورت خطی درون‌یابی شده‌اند (خط رنگی). خروجی‌های (f1-f4) از چهار لایه MLP مختلف داخل ViT رسم شده‌اند. خروجی‌های MLP اولیه و پایانی (f1, f4) انحراف قابل توجهی از یک خط مستقیم نشان می‌دهند که نشان‌دهنده غیرخطی بودن قوی است. میانگین دو ورودی (ستاره بنفش) به یک نقطه خروجی نگاشت می‌شود که از میانگین خروجی‌ها دور است، که به صورت بصری نشان می‌دهد چرا ادغام میانگین در لایه‌های غیرخطی می‌تواند شکست بخورد.

5. چارچوب تحلیل و مثال موردی

مورد: اعمال ToFu روی یک ViT از پیش آموزش‌دیده برای استقرار لبه

سناریو: یک توسعه‌دهنده نیاز دارد مدل ViT-B را روی یک دستگاه موبایل برای طبقه‌بندی تصویر بلادرنگ اجرا کند. مدل کامل بسیار کند است.

کاربرد چارچوب:

پروفایل‌گیری: یک مجموعه داده کالیبراسیون کوچک را از طریق مدل اجرا کن. برای هر بلوک ترانسفورمر، معیار خطی بودن $\mathcal{L}$ را با نمونه‌گیری از جفت توکن‌ها و بررسی خطای درون‌یابی خروجی محاسبه کن.
نقشه استراتژی: یک پروفایل ایجاد کن: بلوک‌های ۱-۳ (خطی بودن پایین) → ترجیح هرس. بلوک‌های ۴-۸ (خطی بودن بالا) → ترجیح ادغام MLERP. بلوک‌های نهایی (خطی بودن پایین) → ترجیح هرس.
پیکربندی: یک بودجه کلی کاهش توکن تنظیم کن (مثلاً ۳۵٪). هرس را در بلوک‌های با خطی بودن پایین و ادغام MLERP را در بلوک‌های با خطی بودن بالا اعمال کن، با رعایت بودجه هر بلوک که از امتیازات اهمیت مشتق شده است.
ارزیابی: مدل فشرده‌شده را مستقر کن. رویکرد تطبیقی در مقایسه با یک روش یک‌اندازه-برای-همه، افت دقت حداقلی را تضمین می‌کند، زیرا از ادغام تهاجمی در لایه‌های غیرخطی حساس اجتناب می‌کند.

این مثال کاربرد عملی ToFu را به عنوان یک چارچوب فشرده‌سازی ساختاریافته، نه صرفاً یک الگوریتم یکپارچه، نشان می‌دهد.

6. کاربردهای آینده و جهت‌های پژوهشی

ترانسفورم‌های چندوجهی: گسترش ToFu به ترانسفورم‌های ویدیویی، صوتی یا چندوجهی (مانند CLIP, Flamingo) که پویایی توکن‌ها پیچیده‌تر است.
هم‌طراحی آگاه از سخت‌افزار: بهینه‌سازی الگوریتم تصمیم‌گیری ToFu (هرس/ادغام) و پیاده‌سازی MLERP برای شتاب‌دهنده‌های هوش مصنوعی خاص (NPUها، GPUها) برای حداکثر کردن سرعت‌بخش واقعی.
ادغام با سایر تکنیک‌ها: ترکیب ToFu با کوانتیزاسیون، تقطیر دانش یا مکانیزم‌های توجه کارآمد (مانند Linformer) برای دستیابی به سود کارایی مرکب.
جستجوی خودکار ابرپارامترها: استفاده از جستجوی معماری عصبی (NAS) یا یادگیری تقویتی برای تعیین خودکار نسبت هرس/ادغام بهینه هر لایه و آستانه خطی بودن.
فراتر از بینایی: بررسی کارایی آن در مدل‌های زبانی بزرگ (LLMها) برای فشرده‌سازی دنباله، اگرچه معناشناسی توکن‌ها به طور قابل توجهی متفاوت است.

7. مراجع

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. تحلیل تخصصی و بینش‌های انتقادی

بینش هسته: ToFu فقط یک ابزار فشرده‌سازی دیگر نیست؛ این یک شناسایی رسمی است که لایه‌های ترانسفورمر ناهمگن هستند. رفتار یکسان با تمام لایه‌ها با یک عمل اولیه فشرده‌سازی، ساده‌انگارانه است. درخشش مقاله در رویکرد تشخیصی آن نهفته است — اندازه‌گیری خطی بودن لایه برای تجویز «جراحی» صحیح (هرس یا ادغام). این یادآور نحوه پروفایل‌گیری کامپایلرهای مدرن از کد برای اعمال بهینه‌سازی‌ها است، سطحی از پیچیدگی که اغلب در پژوهش کارایی یادگیری ماشین مفقود است.

جریان منطقی: استدلال قانع‌کننده است: ۱) نشان دادن شکست ادغام میانگین در لایه‌های غیرخطی (شکل ۱). ۲) پیشنهاد یک معیار برای تشخیص این حالت شکست (خطی بودن). ۳) استفاده از معیار برای مسیریابی توکن‌ها. ۴) رفع عملیات شکست‌خورده (ادغام میانگین) با MLERP. جریان از شناسایی مسئله تا یک راه‌حل چندجزئی، تمیز و منطقی است.

نقاط قوت و ضعف:
نقاط قوت: رویکرد ترکیبی از نظر تئوری مستحکم و از نظر تجربی در وظایف مختلف اعتبارسنجی شده است. MLERP یک اصلاح ساده اما هوشمندانه برای یک مسئله واقعی (فروپاشی نُرم) است. قابلیت اعمال صفر-شات یک مزیت عملی عمده برای استقرار مدل‌های موجود است.
نقاط ضعف: مقاله کمی از سربار «ارزیابی خطی بودن» کم‌اهمیت جلوه می‌دهد. آیا این یک پروفایل از پیش محاسبه‌شده (ایستا) است یا به صورت بلادرنگ محاسبه می‌شود (سربار پویا)؟ مزایای MLERP، اگرچه واضح است، در طبقه‌بندی متوسط به نظر می‌رسد؛ ارزش واقعی آن به نظر در وظایف تولیدی بارزتر است، که با یافته‌های ادبیات مدل انتشار که در آن توزیع خروجی حائز اهمیت است، همسو است. مقایسه، اگرچه منصفانه است، می‌تواند تهاجمی‌تر در برابر روش‌های کوانتیزاسیون پس از آموزش پیشرفته باشد که مزایای متعامد ارائه می‌دهند.

بینش‌های قابل اجرا: برای متخصصان عملی: بلافاصله ToFu/MLERP را به عنوان روش خط اول کاهش توکن خود برای ViTها، به ویژه برای وظایف تولیدی، اتخاذ کنید. این روش ToMe را به عنوان استراتژی ادغام پیش‌فرض جایگزین می‌کند. برای پژوهشگران: پارادایم «فشرده‌سازی آگاه از لایه» نکته کلیدی است. کار آینده باید بر خودکارسازی تشخیص مناطق مدل دوستدار فشرده‌سازی در مقابل حساس به فشرده‌سازی متمرکز شود، شاید با الهام از کار بر روی هرس شبکه در CNNها یا تحلیل فروپاشی حالت در GANهایی مانند CycleGAN. مرز بعدی، ساخت مدل‌هایی است که به طور ذاتی از نظر طراحی کارآمد هستند، با استفاده از بینش‌های حاصل از چنین مطالعات تشخیصی برای اطلاع‌رسانی به جستجوی معماری، فراتر از صرف فشرده‌سازی پس‌اثر.