1. مقدمه و مرور کلی
ترانسفورمهای بینایی (ViTs) انقلابی در بینایی کامپیوتر ایجاد کردهاند، اما به دلیل پیچیدگی درجهدوم توجه خودی (self-attention) نسبت به تعداد توکنهای ورودی، از هزینه محاسباتی بالایی رنج میبرند. این مقاله با عنوان همجوشی توکن: پلی بر شکاف میان هرس توکن و ادغام توکن، روش همجوشی توکن (ToFu) را معرفی میکند؛ یک روش ترکیبی که به صورت پویا بر اساس رفتار مدل، بین هرس و ادغام توکنها انتخاب میکند تا بهینهسازی مبادله کارایی-دقت را انجام دهد.
بینش اصلی این است که نه هرس (دور انداختن توکنها) و نه ادغام (میانگینگیری توکنها) به طور جهانی بهینه نیستند. مقاله راهی اصولی برای انتخاب عملیات مناسب در هر لایه پیشنهاد میدهد، همراه با یک تکنیک ادغام نوآورانه به نام MLERP (درونیابی خطی چندتوکنی) برای حل مسئله جابجایی توزیع در ادغام میانگین استاندارد.
2. روششناسی هسته: همجوشی توکن (ToFu)
ToFu بر اساس تحلیل پاسخ مدل به ورودیهای درونیابی شده بنا شده است تا مناسب بودن آن برای ادغام یا هرس را تعیین کند.
2.1. معضل هرس در مقابل ادغام
نویسندگان یک معیار کلیدی را شناسایی میکنند: خطی بودن مدل. اگر یک لایه مدل تقریباً به صورت خطی به ورودیهای درونیابی شده پاسخ دهد (مثلاً $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$)، ادغام توکنهای مشابه از طریق میانگینگیری مؤثر است و اطلاعات را حفظ میکند. با این حال، در لایههای غیرخطی اولیه/عمیقتر (همانطور که در شکل ۱ مقاله مصور شده است)، درونیابی خطی در فضای ورودی منجر به خروجیهای بسیار غیرخطی میشود که ادغام میانگین را مسئلهساز کرده و به طور بالقوه باعث جابجایی توزیع میشود. در چنین مواردی، هرس توکنهای کماهمیتتر، جایگزینی امنتر، هرچند با اتلاف بیشتر، است.
2.2. چارچوب ToFu
ToFu در هر بلوک ترانسفورمر عمل میکند:
- امتیازدهی اهمیت توکن: به هر توکن یک امتیاز اهمیت اختصاص میدهد (مثلاً بر اساس نُرم توجه یا گرادیان).
- ارزیابی خطی بودن: خطی بودن تقریبی لایه را ارزیابی میکند، که اغلب به صورت تجربی یا از طریق یک پروب سبکوزن به دست میآید.
- عملیات تطبیقی: برای یک نسبت کاهش توکن هدف:
- در مناطق با خطی بودن بالا: کماهمیتترین توکنها را با مهمترین و مشابهترین همسایگانشان ادغام کن.
- در مناطق با خطی بودن پایین: کماهمیتترین توکنها را مستقیماً هرس کن.
این امر یک خط لوله فشردهسازی پویا و آگاه از زمینه ایجاد میکند.
2.3. MLERP: ادغام با حفظ نُرم
برای بهبود نسبت به میانگینگیری ساده، نویسندگان MLERP را پیشنهاد میدهند که اقتباسی از درونیابی خطی کروی (SLERP) برای ادغام $K$ توکن است. برای توکنهای $t_1, t_2, ..., t_K$ با نُرمهای $n_i = ||t_i||$، MLERP ابتدا جهتها را روی کره واحد درونیابی میکند و سپس با میانگین وزنی نُرمهای اصلی مقیاس میدهد:
$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$
که در آن $w_i$ وزنهای مبتنی بر اهمیت هستند. این روش توزیع نُرم آماری ویژگیها را حفظ میکند، جابجایی توزیع ناشی از میانگینگیری ساده را کاهش میدهد و منجر به عملکرد پایدارتر، به ویژه در رژیمهای غیرخطی میشود.
3. جزئیات فنی و فرمولبندی ریاضی
مقاله مسئله کاهش توکن را صوری میکند. فرض کنید یک لایه دارای $N$ توکن ورودی $T = \{t_1, ..., t_N\}$ باشد. هدف تولید مجموعه کاهشیافته $T'$ با $M < N$ توکن است.
معادلات کلیدی:
- امتیاز اهمیت: $I(t_i) = ||\text{Attn}(t_i)||_1$ یا یک معیار مبتنی بر گرادیان.
- معیار شباهت: معمولاً شباهت کسینوسی $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
- معیار خطی بودن ($\mathcal{L}$): با انحراف خروجیهای لایه از درونیابی خطی ورودیها اندازهگیری میشود. مقدار کم $\mathcal{L}$ به ادغام تمایل دارد؛ مقدار زیاد $\mathcal{L}$ به هرس تمایل دارد.
الگوریتم ToFu را میتوان روی مدلهای از پیش آموزشدیده بدون تنظیم دقیق (صفر-شات) اعمال کرد یا با آموزش سبک تقویت نمود.
4. نتایج آزمایشی و عملکرد
نویسندگان ToFu را روی وظایف طبقهبندی تصویر (ImageNet با ViT-B/16, DeiT) و تولید تصویر (مدلهای انتشار نهفته) ارزیابی میکنند.
نکات برجسته عملکرد کلیدی
- طبقهبندی: ToFu به مبادله دقت در مقابل FLOPs بهتری نسبت به روشهای مستقل هرس (مانند DynamicViT) یا ادغام (ToMe) دست مییابد. به عنوان مثال، در کاهش ۴۰٪ FLOPs، ToFu کمتر از ۰.۵٪ دقت top-1 را در ImageNet از دست میدهد و حدود ۰.۳٪ از ToMe بهتر عمل میکند.
- تولید تصویر: در Stable Diffusion، ToFu در هزینه محاسباتی کاهشیافته، وفاداری بصری بالاتری (اندازهگیری شده با FID) را در مقایسه با ToMe حفظ میکند، به ویژه هنگام کاهش تعداد زیادی توکن. ادغام MLERP مزیت واضحتری در وظایف تولیدی نشان میدهد که توزیع خروجی حیاتی است.
- حذف گزینشی (Ablation): نشان داده شده است که استراتژی تطبیقی (انتخاب ادغام/هرس) در تمام لایهها برتر از استفاده انحصاری از هر یک از عملیات است. MLERP به طور مداوم از ادغام میانگین بهتر عمل میکند.
توضیح نمودار (بر اساس شکل ۱ مقاله): شکل غیرخطی بودن لایههای ViT را نشان میدهد. دو نقطه ویژگی ورودی (x1, x2) به صورت خطی درونیابی شدهاند (خط رنگی). خروجیهای (f1-f4) از چهار لایه MLP مختلف داخل ViT رسم شدهاند. خروجیهای MLP اولیه و پایانی (f1, f4) انحراف قابل توجهی از یک خط مستقیم نشان میدهند که نشاندهنده غیرخطی بودن قوی است. میانگین دو ورودی (ستاره بنفش) به یک نقطه خروجی نگاشت میشود که از میانگین خروجیها دور است، که به صورت بصری نشان میدهد چرا ادغام میانگین در لایههای غیرخطی میتواند شکست بخورد.
5. چارچوب تحلیل و مثال موردی
مورد: اعمال ToFu روی یک ViT از پیش آموزشدیده برای استقرار لبه
سناریو: یک توسعهدهنده نیاز دارد مدل ViT-B را روی یک دستگاه موبایل برای طبقهبندی تصویر بلادرنگ اجرا کند. مدل کامل بسیار کند است.
کاربرد چارچوب:
- پروفایلگیری: یک مجموعه داده کالیبراسیون کوچک را از طریق مدل اجرا کن. برای هر بلوک ترانسفورمر، معیار خطی بودن $\mathcal{L}$ را با نمونهگیری از جفت توکنها و بررسی خطای درونیابی خروجی محاسبه کن.
- نقشه استراتژی: یک پروفایل ایجاد کن: بلوکهای ۱-۳ (خطی بودن پایین) → ترجیح هرس. بلوکهای ۴-۸ (خطی بودن بالا) → ترجیح ادغام MLERP. بلوکهای نهایی (خطی بودن پایین) → ترجیح هرس.
- پیکربندی: یک بودجه کلی کاهش توکن تنظیم کن (مثلاً ۳۵٪). هرس را در بلوکهای با خطی بودن پایین و ادغام MLERP را در بلوکهای با خطی بودن بالا اعمال کن، با رعایت بودجه هر بلوک که از امتیازات اهمیت مشتق شده است.
- ارزیابی: مدل فشردهشده را مستقر کن. رویکرد تطبیقی در مقایسه با یک روش یکاندازه-برای-همه، افت دقت حداقلی را تضمین میکند، زیرا از ادغام تهاجمی در لایههای غیرخطی حساس اجتناب میکند.
این مثال کاربرد عملی ToFu را به عنوان یک چارچوب فشردهسازی ساختاریافته، نه صرفاً یک الگوریتم یکپارچه، نشان میدهد.
6. کاربردهای آینده و جهتهای پژوهشی
- ترانسفورمهای چندوجهی: گسترش ToFu به ترانسفورمهای ویدیویی، صوتی یا چندوجهی (مانند CLIP, Flamingo) که پویایی توکنها پیچیدهتر است.
- همطراحی آگاه از سختافزار: بهینهسازی الگوریتم تصمیمگیری ToFu (هرس/ادغام) و پیادهسازی MLERP برای شتابدهندههای هوش مصنوعی خاص (NPUها، GPUها) برای حداکثر کردن سرعتبخش واقعی.
- ادغام با سایر تکنیکها: ترکیب ToFu با کوانتیزاسیون، تقطیر دانش یا مکانیزمهای توجه کارآمد (مانند Linformer) برای دستیابی به سود کارایی مرکب.
- جستجوی خودکار ابرپارامترها: استفاده از جستجوی معماری عصبی (NAS) یا یادگیری تقویتی برای تعیین خودکار نسبت هرس/ادغام بهینه هر لایه و آستانه خطی بودن.
- فراتر از بینایی: بررسی کارایی آن در مدلهای زبانی بزرگ (LLMها) برای فشردهسازی دنباله، اگرچه معناشناسی توکنها به طور قابل توجهی متفاوت است.
7. مراجع
- Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
- Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
- Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
- Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
- Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
- Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.
8. تحلیل تخصصی و بینشهای انتقادی
بینش هسته: ToFu فقط یک ابزار فشردهسازی دیگر نیست؛ این یک شناسایی رسمی است که لایههای ترانسفورمر ناهمگن هستند. رفتار یکسان با تمام لایهها با یک عمل اولیه فشردهسازی، سادهانگارانه است. درخشش مقاله در رویکرد تشخیصی آن نهفته است — اندازهگیری خطی بودن لایه برای تجویز «جراحی» صحیح (هرس یا ادغام). این یادآور نحوه پروفایلگیری کامپایلرهای مدرن از کد برای اعمال بهینهسازیها است، سطحی از پیچیدگی که اغلب در پژوهش کارایی یادگیری ماشین مفقود است.
جریان منطقی: استدلال قانعکننده است: ۱) نشان دادن شکست ادغام میانگین در لایههای غیرخطی (شکل ۱). ۲) پیشنهاد یک معیار برای تشخیص این حالت شکست (خطی بودن). ۳) استفاده از معیار برای مسیریابی توکنها. ۴) رفع عملیات شکستخورده (ادغام میانگین) با MLERP. جریان از شناسایی مسئله تا یک راهحل چندجزئی، تمیز و منطقی است.
نقاط قوت و ضعف:
نقاط قوت: رویکرد ترکیبی از نظر تئوری مستحکم و از نظر تجربی در وظایف مختلف اعتبارسنجی شده است. MLERP یک اصلاح ساده اما هوشمندانه برای یک مسئله واقعی (فروپاشی نُرم) است. قابلیت اعمال صفر-شات یک مزیت عملی عمده برای استقرار مدلهای موجود است.
نقاط ضعف: مقاله کمی از سربار «ارزیابی خطی بودن» کماهمیت جلوه میدهد. آیا این یک پروفایل از پیش محاسبهشده (ایستا) است یا به صورت بلادرنگ محاسبه میشود (سربار پویا)؟ مزایای MLERP، اگرچه واضح است، در طبقهبندی متوسط به نظر میرسد؛ ارزش واقعی آن به نظر در وظایف تولیدی بارزتر است، که با یافتههای ادبیات مدل انتشار که در آن توزیع خروجی حائز اهمیت است، همسو است. مقایسه، اگرچه منصفانه است، میتواند تهاجمیتر در برابر روشهای کوانتیزاسیون پس از آموزش پیشرفته باشد که مزایای متعامد ارائه میدهند.
بینشهای قابل اجرا: برای متخصصان عملی: بلافاصله ToFu/MLERP را به عنوان روش خط اول کاهش توکن خود برای ViTها، به ویژه برای وظایف تولیدی، اتخاذ کنید. این روش ToMe را به عنوان استراتژی ادغام پیشفرض جایگزین میکند. برای پژوهشگران: پارادایم «فشردهسازی آگاه از لایه» نکته کلیدی است. کار آینده باید بر خودکارسازی تشخیص مناطق مدل دوستدار فشردهسازی در مقابل حساس به فشردهسازی متمرکز شود، شاید با الهام از کار بر روی هرس شبکه در CNNها یا تحلیل فروپاشی حالت در GANهایی مانند CycleGAN. مرز بعدی، ساخت مدلهایی است که به طور ذاتی از نظر طراحی کارآمد هستند، با استفاده از بینشهای حاصل از چنین مطالعات تشخیصی برای اطلاعرسانی به جستجوی معماری، فراتر از صرف فشردهسازی پساثر.