دمج الرموز: الجسر بين تقليم الرموز ودمجها لتحقيق محولات الرؤية الفعالة

1. المقدمة والنظرة العامة

أحدثت محولات الرؤية (ViTs) ثورة في مجال الرؤية الحاسوبية، لكنها تعاني من تكلفة حسابية عالية بسبب التعقيد التربيعي للانتباه الذاتي بالنسبة لعدد الرموز المدخلة. تقدم هذه الورقة البحثية، بعنوان دمج الرموز: سد الفجوة بين تقليم الرموز ودمجها، طريقة دمج الرموز (ToFu)، وهي طريقة هجينة تختار ديناميكيًا بين تقليم الرموز ودمجها بناءً على سلوك النموذج لتحسين المقايضة بين الكفاءة والدقة.

الفكرة الأساسية هي أن لا التقليم (تجاهل الرموز) ولا الدمج (متوسط الرموز) هو الأمثل عالميًا. تقترح الورقة طريقة منهجية لاختيار العملية المناسبة لكل طبقة، مقترنة بتقنية دمج جديدة تسمى MLERP (الاستيفاء الخطي متعدد الرموز) لمعالجة مشاكل انزياح التوزيع في الدمج المتوسط القياسي.

2. المنهجية الأساسية: دمج الرموز (ToFu)

يُبنى ToFu على تحليل استجابة النموذج للمدخلات المستوفاة، لتحديد مدى ملاءمته للدمج أو التقليم.

2.1. معضلة التقليم مقابل الدمج

يحدد المؤلفون معيارًا رئيسيًا: الخطية النموذجية. إذا استجابت طبقة النموذج بشكل شبه خطي للمدخلات المستوفاة (مثلًا، $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$)، فإن دمج الرموز المتشابهة عبر المتوسط يكون فعالًا ويحافظ على المعلومات. ومع ذلك، في الطبقات غير الخطية المبكرة/المتأخرة (كما هو موضح في الشكل 1 الخاص بهم)، يؤدي الاستيفاء الخطي في فضاء المدخلات إلى مخرجات غير خطية للغاية، مما يجعل الدمج المتوسط إشكاليًا وقد يتسبب في انزياحات في التوزيع. في مثل هذه الحالات، يعد التقليم للرموز الأقل أهمية بديلاً أكثر أمانًا، وإن كان يؤدي إلى فقدان أكبر للمعلومات.

2.2. إطار عمل ToFu

يعمل ToFu لكل كتلة محول:

تسجيل أهمية الرمز: تعيين درجة أهمية لكل رمز (على سبيل المثال، بناءً على قاعدة الانتباه أو التدرج).
تقييم الخطية: تقييم الخطية التقريبية للطبقة، غالبًا ما تُشتق تجريبيًا أو عبر مسبار خفيف الوزن.
العملية التكيفية: بالنسبة لنسبة تقليل الرموز المستهدفة:
- في مناطق الخطية العالية: دمج الرموز الأقل أهمية مع جيرانها المهمين الأكثر تشابهًا.
- في مناطق الخطية المنخفضة: تقليم الرموز الأقل أهمية مباشرة.

هذا يخلق خط أنابيب ضغط ديناميكيًا وواعيًا بالسياق.

2.3. MLERP: الدمج مع الحفاظ على القاعدة

لتحسين المتوسط البسيط، يقترح المؤلفون MLERP، وهو تكيف للاستيفاء الخطي الكروي (SLERP) لدمج $K$ رمزًا. بالنسبة للرموز $t_1, t_2, ..., t_K$ ذات القواعد $n_i = ||t_i||$، يقوم MLERP أولاً باستيفاء الاتجاهات على الكرة الوحدة ثم يقوم بالتحجيم باستخدام المتوسط المرجح للقواعد الأصلية:

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

حيث $w_i$ هي أوزان تعتمد على الأهمية. يحافظ هذا على التوزيع الإحصائي لقواعد الميزات، مما يخفف من انزياح التوزيع الناجم عن المتوسط الساذج ويؤدي إلى أداء أكثر استقرارًا، خاصة في الأنظمة غير الخطية.

3. التفاصيل التقنية والصياغة الرياضية

تقوم الورقة بتصيغ مشكلة تقليل الرموز. لنفترض أن طبقة ما تحتوي على $N$ رمزًا مدخلًا $T = \{t_1, ..., t_N\}$. الهدف هو إنتاج مجموعة مخفضة $T'$ تحتوي على $M < N$ رمزًا.

المعادلات الرئيسية:

درجة الأهمية: $I(t_i) = ||\text{Attn}(t_i)||_1$ أو مقياس يعتمد على التدرج.
مقياس التشابه: عادةً تشابه جيب التمام $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$.
مقياس الخطية ($\mathcal{L}$): يُقاس بانحراف مخرجات الطبقة عن الاستيفاء الخطي للمدخلات. يشير انخفاض $\mathcal{L}$ إلى تفضيل الدمج؛ بينما يشير ارتفاعه إلى تفضيل التقليم.

يمكن تطبيق خوارزمية ToFu على النماذج المدربة مسبقًا دون ضبط دقيق (صفر-لقطة) أو تعزيزها بتدريب خفيف.

4. النتائج التجريبية والأداء

يقيم المؤلفون ToFu في مهام تصنيف الصور (ImageNet مع ViT-B/16، DeiT) وتوليد الصور (نماذج الانتشار الكامنة).

أبرز نقاط الأداء

التصنيف: يحقق ToFu مقايضة أفضل بين الدقة وعمليات الفلوب مقارنة بطرق التقليم المنفردة (مثل DynamicViT) أو الدمج (ToMe). على سبيل المثال، عند تقليل 40% من عمليات الفلوب، يفقد ToFu <0.5% من دقة top-1 على ImageNet، متفوقًا على ToMe بحوالي ~0.3%.
توليد الصور: في Stable Diffusion، يحافظ ToFu على ولاء بصري أعلى (يُقاس بـ FID) بتكلفة حسابية مخفضة مقارنة بـ ToMe، خاصة عند تقليل عدد كبير من الرموز. يظهر دمج MLERP ميزة أوضح في مهام التوليد حيث يكون توزيع المخرجات بالغ الأهمية.
الإزالة التدريجية: تظهر الاستراتيجية التكيفية (اختيار الدمج/التقليم) تفوقها على استخدام أي من العمليتين حصريًا عبر جميع الطبقات. يتفوق MLERP باستمرار على الدمج المتوسط.

وصف الرسم البياني (بناءً على الشكل 1 من الورقة): يوضح الشكل عدم خطية طبقات ViT. يتم استيفاء نقطتي ميزة مدخلتين (x1, x2) خطيًا (الخط الملون). يتم رسم المخرجات (f1-f4) من أربع طبقات MLP مختلفة داخل ViT. تظهر مخرجات MLP المبكرة والمتأخرة (f1, f4) انحرافًا كبيرًا عن الخط المستقيم، مما يشير إلى عدم خطية قوية. متوسط المدخلين (النجمة البنفسجية) ينتقل إلى نقطة مخرجات بعيدة عن متوسط المخرجات، مما يوضح بصريًا سبب فشل الدمج المتوسط في الطبقات غير الخطية.

5. إطار التحليل ومثال تطبيقي

مثال: تطبيق ToFu على ViT مدرب مسبقًا للنشر على الحافة

السيناريو: يحتاج مطور إلى تشغيل نموذج ViT-B على جهاز محمول لتصنيف الصور في الوقت الفعلي. النموذج الكامل بطيء جدًا.

تطبيق الإطار:

التوصيف: تشغيل مجموعة بيانات معايرة صغيرة عبر النموذج. لكل كتلة محول، حساب مقياس الخطية $\mathcal{L}$ عن طريق أخذ عينات من أزواج الرموز والتحقق من خطأ استيفاء المخرجات.
خريطة الاستراتيجية: إنشاء توصيف: الكتل 1-3 (خطية منخفضة) → تفضيل التقليم. الكتل 4-8 (خطية عالية) → تفضيل دمج MLERP. الكتل النهائية (خطية منخفضة) → تفضيل التقليم.
التكوين: تعيين ميزانية تقليل رموز عامة (مثل 35%). تطبيق التقليم في كتل الخطية المنخفضة ودمج MLERP في كتل الخطية العالية، مع مراعاة الميزانيات لكل كتلة المشتقة من درجات الأهمية.
التقييم: نشر النموذج المضغوط. تضمن الطريقة التكيفية انخفاضًا طفيفًا في الدقة مقارنة بالطريقة الموحدة، حيث تتجنب الدمج العدواني في الطبقات غير الخطية الحساسة.

يوضح هذا المثال الفائدة العملية لـ ToFu كإطار ضغط منظم، وليس مجرد خوارزمية أحادية.

6. التطبيقات المستقبلية واتجاهات البحث

محولات الوسائط المتعددة: توسيع نطاق ToFu لتشمل محولات الفيديو أو الصوت أو الوسائط المتعددة (مثل CLIP، Flamingo) حيث تكون ديناميكيات الرموز أكثر تعقيدًا.
التصميم المشترك الواعي بالأجهزة: تحسين خوارزمية قرار ToFu (تقليم/دمج) وتنفيذ MLERP لمسرعات الذكاء الاصطناعي المحددة (NPUs، GPUs) لتعظيم التسريع الحقيقي.
التكامل مع تقنيات أخرى: دمج ToFu مع التكميم أو تقطير المعرفة أو آليات الانتباه الفعالة (مثل Linformer) لتحقيق مكاسب مركبة في الكفاءة.
البحث الآلي عن المعلمات الفائقة: استخدام بحث بنية الشبكة العصبية (NAS) أو التعلم المعزز لتحديد نسبة التقليم/الدمج المثلى لكل طبقة وعتبة الخطية تلقائيًا.
ما بعد الرؤية: استكشاف فعاليتها في نماذج اللغة الكبيرة (LLMs) لضغط التسلسل، على الرغم من أن دلالات الرموز تختلف بشكل كبير.

7. المراجع

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. التحليل الخبير والرؤى النقدية

الرؤية الأساسية: ToFu ليس مجرد أداة ضغط أخرى؛ إنه اعتراف رسمي بأن طبقات المحولات غير متجانسة. معاملة جميع الطبقات بنفس أداة الضغط البدائية أمر ساذج. تكمن براعة الورقة في نهجها التشخيصي—قياس خطية الطبقة لوصف "الجراحة" المناسبة (تقليم أو دمج). هذا يذكرنا بكيفية قيام المترجمات الحديثة بتوصيف التعليمات البرمجية لتطبيق التحسينات، وهو مستوى من التطور غالبًا ما يكون مفقودًا في أبحاث كفاءة التعلم الآلي.

التدفق المنطقي: الحجة مقنعة: 1) إظهار فشل الدمج المتوسط في الطبقات غير الخطية (الشكل 1). 2) اقتراح مقياس لاكتشاف نمط الفشل هذا (الخطية). 3) استخدام المقياس لتوجيه الرموز. 4) إصلاح العملية الفاشلة (الدمج المتوسط) باستخدام MLERP. التدفق من تحديد المشكلة إلى حل متعدد المكونات نظيف ومنطقي.

نقاط القوة والضعف:
نقاط القوة: النهج الهجيني سليم نظريًا ومُتحقق منه تجريبيًا عبر المهام. MLERP هو إصلاح بسيط لكن ذكي لمشكلة حقيقية (انهيار القاعدة). قابلية التطبيق صفر-لقطة هي ميزة عملية كبرى لنشر النماذج الحالية.
نقاط الضعف: تهمش الورقة قليلاً النفقات العامة لـ "تقييم الخطية". هل هو توصيف محسوب مسبقًا (ثابت) أم محسوب على الطاير (نفقات ديناميكية)؟ فوائد MLERP، رغم وضوحها، تبدو متواضعة في التصنيف؛ تبدو قيمتها الحقيقية أكثر وضوحًا في مهام التوليد، متوافقة مع نتائج أدبيات نماذج الانتشار حيث يكون توزيع المخرجات في غاية الأهمية. المقارنة، رغم عدالتها، يمكن أن تكون أكثر عدوانية ضد أحدث طرق التكميم بعد التدريب التي تقدم فوائد متعامدة.

رؤى قابلة للتنفيذ: للممارسين: اعتمد ToFu/MLERP فورًا كطريقة تقليل الرموز من الدرجة الأولى لـ ViTs، خاصة لمهام التوليد. إنه يحل محل ToMe كاستراتيجية الدمج الافتراضية. للباحثين: نموذج "الضغط الواعي بالطبقة" هو الوجبة الرئيسية. يجب أن يركز العمل المستقبلي على أتمتة اكتشاف مناطق النموذج الصديقة للضغط مقابل الحساسة للضغط، ربما مستوحاة من العمل على تقليم الشبكات في CNNs أو تحليل انهيار النمط في GANs مثل CycleGAN. الحدود التالية هي بناء نماذج فعالة بطبيعتها عن طريق التصميم، باستخدام رؤى من مثل هذه الدراسات التشخيصية لإعلام بحث البنية، والانتقال إلى ما هو أبعد من مجرد الضغط اللاحق.