টোকেন ফিউশন: দক্ষ ভিশন ট্রান্সফরমারের জন্য টোকেন প্রুনিং ও মার্জিংয়ের সেতুবন্ধন

1. ভূমিকা ও সারসংক্ষেপ

ভিশন ট্রান্সফরমারগুলি (ভিআইটি) কম্পিউটার ভিশনে বিপ্লব ঘটালেও ইনপুট টোকেনের সংখ্যার সাপেক্ষে স্ব-মনোযোগের দ্বিঘাত জটিলতার কারণে উচ্চ গণনামূলক খরচের সম্মুখীন হয়। এই গবেষণাপত্র, টোকেন ফিউশন: টোকেন প্রুনিং ও টোকেন মার্জিংয়ের মধ্যকার ব্যবধান পূরণ, টোকেন ফিউশন (টোফু) উপস্থাপন করে, একটি সংকর পদ্ধতি যা দক্ষতা-নির্ভুলতার ভারসাম্য অপ্টিমাইজ করতে মডেলের আচরণের ভিত্তিতে টোকেন প্রুনিং ও মার্জিংয়ের মধ্যে গতিশীলভাবে পছন্দ করে।

মূল অন্তর্দৃষ্টি হলো, প্রুনিং (টোকেন বাতিল) বা মার্জিং (টোকেন গড়) কোনোটিই সর্বজনীনভাবে সর্বোত্তম নয়। গবেষণাপত্রটি প্রতি স্তরের জন্য উপযুক্ত অপারেশন নির্বাচনের একটি নীতিগত উপায় প্রস্তাব করে, পাশাপাশি এমএলইআরপি (মাল্টি-টোকেন লিনিয়ার ইন্টারপোলেশন) নামে একটি নতুন মার্জিং কৌশল প্রস্তাব করে যা আদর্শ গড় মার্জিংয়ে বন্টন পরিবর্তনের সমস্যা সমাধান করে।

2. মূল পদ্ধতি: টোকেন ফিউশন (টোফু)

টোফু ইন্টারপোলেটেড ইনপুটের প্রতি মডেলের প্রতিক্রিয়া বিশ্লেষণের উপর নির্মিত, যা মার্জিং বা প্রুনিংয়ের জন্য এর উপযুক্ততা নির্ধারণ করে।

2.1. প্রুনিং বনাম মার্জিংয়ের দ্বিধা

লেখকরা একটি মূল মানদণ্ড চিহ্নিত করেছেন: মডেল রৈখিকতা। যদি একটি মডেল স্তর ইন্টারপোলেটেড ইনপুটের প্রতি প্রায় রৈখিকভাবে সাড়া দেয় (যেমন, $f(\alpha x_1 + (1-\alpha)x_2) \approx \alpha f(x_1) + (1-\alpha)f(x_2)$), তাহলে গড়ের মাধ্যমে অনুরূপ টোকেন মার্জ করা কার্যকর এবং তথ্য সংরক্ষণ করে। তবে, প্রাথমিক/গভীর অ-রৈখিক স্তরগুলিতে (তাদের চিত্র ১-এ দৃশ্যমান), ইনপুট স্পেসে রৈখিক ইন্টারপোলেশন অত্যন্ত অ-রৈখিক আউটপুটের দিকে নিয়ে যায়, যা গড় মার্জিং সমস্যাযুক্ত করে তোলে এবং সম্ভাব্য বন্টন পরিবর্তনের কারণ হতে পারে। এমন ক্ষেত্রে, কম গুরুত্বপূর্ণ টোকেন প্রুনিং করা একটি নিরাপদ, যদিও বেশি ক্ষতিপূরণযোগ্য, বিকল্প।

2.2. টোফু কাঠামো

টোফু প্রতি ট্রান্সফরমার ব্লকে কাজ করে:

টোকেন গুরুত্ব স্কোরিং: প্রতিটি টোকেনকে একটি গুরুত্ব স্কোর নির্ধারণ করে (যেমন, মনোযোগ নর্ম বা গ্রেডিয়েন্টের ভিত্তিতে)।
রৈখিকতা মূল্যায়ন: স্তরের আনুমানিক রৈখিকতা মূল্যায়ন করে, প্রায়শই অভিজ্ঞতামূলকভাবে বা একটি হালকা প্রোবের মাধ্যমে প্রাপ্ত।
অভিযোজিত অপারেশন: একটি লক্ষ্য টোকেন হ্রাস অনুপাতের জন্য:
- উচ্চ-রৈখিকতা অঞ্চলে: সর্বনিম্ন গুরুত্বপূর্ণ টোকেনগুলিকে তাদের সবচেয়ে অনুরূপ, গুরুত্বপূর্ণ প্রতিবেশীদের সাথে মার্জ করুন।
- নিম্ন-রৈখিকতা অঞ্চলে: সর্বনিম্ন গুরুত্বপূর্ণ টোকেনগুলিকে সরাসরি প্রুন করুন।

এটি একটি গতিশীল, প্রসঙ্গ-সচেতন সংকোচন পাইপলাইন তৈরি করে।

2.3. এমএলইআরপি: নর্ম-সংরক্ষণকারী মার্জিং

সরল গড়ের উন্নতির জন্য, লেখকরা এমএলইআরপি প্রস্তাব করেন, যা $K$ টোকেন মার্জ করার জন্য গোলাকার রৈখিক ইন্টারপোলেশন (এসএলইআরপি)-এর একটি অভিযোজন। টোকেন $t_1, t_2, ..., t_K$ এবং নর্ম $n_i = ||t_i||$ এর জন্য, এমএলইআরপি প্রথমে একক গোলকের উপর দিকগুলি ইন্টারপোলেট করে এবং তারপর মূল নর্মগুলির একটি ওজনযুক্ত গড় দ্বারা স্কেল করে:

$t_{\text{merged}} = \left( \frac{\sum_{i=1}^K w_i n_i}{\| \sum_{i=1}^K w_i \frac{t_i}{n_i} \|} \right) \left( \sum_{i=1}^K w_i \frac{t_i}{n_i} \right)$

যেখানে $w_i$ গুরুত্ব-ভিত্তিক ওজন। এটি বৈশিষ্ট্যগুলির পরিসংখ্যানগত নর্ম বন্টন সংরক্ষণ করে, সরল গড়ের কারণে সৃষ্ট বন্টন পরিবর্তন প্রশমিত করে এবং আরও স্থিতিশীল কার্যকারিতার দিকে নিয়ে যায়, বিশেষত অ-রৈখিক শাসনে।

3. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

গবেষণাপত্রটি টোকেন হ্রাস সমস্যাটিকে আনুষ্ঠানিকভাবে উপস্থাপন করে। ধরা যাক একটি স্তরে $N$ ইনপুট টোকেন $T = \{t_1, ..., t_N\}$ রয়েছে। লক্ষ্য হল $M < N$ টোকেন সহ একটি হ্রাসকৃত সেট $T'$ উৎপাদন করা।

মূল সমীকরণ:

গুরুত্ব স্কোর: $I(t_i) = ||\text{Attn}(t_i)||_1$ বা গ্রেডিয়েন্ট-ভিত্তিক পরিমাপ।
সাদৃশ্য মেট্রিক: সাধারণত কোসাইন সাদৃশ্য $S(t_i, t_j) = \frac{t_i \cdot t_j}{||t_i|| \, ||t_j||}$।
রৈখিকতা মেট্রিক ($\mathcal{L}$): ইনপুটের রৈখিক ইন্টারপোলেশন থেকে স্তর আউটপুটের বিচ্যুতি দ্বারা পরিমাপ করা হয়। একটি নিম্ন $\mathcal{L}$ মার্জিংকে পছন্দ করে; একটি উচ্চ $\mathcal{L}$ প্রুনিংকে পছন্দ করে।

টোফু অ্যালগরিদমটি ফাইন-টিউনিং ছাড়াই (জিরো-শট) পূর্ব-প্রশিক্ষিত মডেলগুলিতে প্রয়োগ করা যেতে পারে বা হালকা প্রশিক্ষণের মাধ্যমে উন্নত করা যেতে পারে।

4. পরীক্ষামূলক ফলাফল ও কার্যকারিতা

লেখকরা চিত্র শ্রেণীবিভাগ (ভিআইটি-বি/১৬, ডিইআইটি সহ ইমেজনেট) এবং চিত্র উৎপাদন (লেটেন্ট ডিফিউশন মডেল) কাজে টোফু মূল্যায়ন করেছেন।

মূল কার্যকারিতা হাইলাইট

শ্রেণীবিভাগ: টোফু স্বতন্ত্র প্রুনিং (যেমন, ডায়নামিকভিআইটি) বা মার্জিং (টোমে) পদ্ধতির চেয়ে নির্ভুলতা বনাম এফএলওপিএসের আরও ভাল ভারসাম্য অর্জন করে। উদাহরণস্বরূপ, ৪০% এফএলওপিএস হ্রাসে, টোফু ইমেজনেটে <০.৫% শীর্ষ-১ নির্ভুলতা হারায়, যা টোমেকে ~০.৩% দ্বারা ছাড়িয়ে যায়।
চিত্র উৎপাদন: স্টেবল ডিফিউশনে, টোমের তুলনায় হ্রাসকৃত গণনামূলক খরচে টোফু উচ্চতর চাক্ষুষ বিশ্বস্ততা (এফআইডি দ্বারা পরিমাপিত) বজায় রাখে, বিশেষত প্রচুর সংখ্যক টোকেন হ্রাস করার সময়। এমএলইআরপি মার্জিং উৎপাদন কাজে আরও স্পষ্ট সুবিধা দেখায় যেখানে আউটপুট বন্টন গুরুত্বপূর্ণ।
বিচ্ছিন্নতা: অভিযোজিত কৌশল (মার্জ/প্রুন নির্বাচন) সমস্ত স্তরে একচেটিয়াভাবে যেকোনো অপারেশন ব্যবহার করার চেয়ে শ্রেষ্ঠতর দেখানো হয়েছে। এমএলইআরপি ধারাবাহিকভাবে গড় মার্জিংকে ছাড়িয়ে যায়।

চার্ট বর্ণনা (গবেষণাপত্রের চিত্র ১-এর ভিত্তিতে): চিত্রটি ভিআইটি স্তরগুলির অ-রৈখিকতা চিত্রিত করে। দুটি ইনপুট বৈশিষ্ট্য বিন্দু (x1, x2) রৈখিকভাবে ইন্টারপোলেট করা হয়েছে (রঙিন রেখা)। ভিআইটির ভিতরে চারটি ভিন্ন এমএলপি স্তর থেকে আউটপুট (f1-f4) প্লট করা হয়েছে। প্রাথমিক এবং শেষ এমএলপি আউটপুট (f1, f4) একটি সরল রেখা থেকে উল্লেখযোগ্য বিচ্যুতি দেখায়, যা শক্তিশালী অ-রৈখিকতা নির্দেশ করে। দুটি ইনপুটের গড় (বেগুনি তারা) আউটপুটগুলির গড় থেকে দূরে একটি আউটপুট বিন্দুতে ম্যাপ করে, যা দৃশ্যত প্রদর্শন করে কেন গড় মার্জিং অ-রৈখিক স্তরগুলিতে ব্যর্থ হতে পারে।

5. বিশ্লেষণ কাঠামো ও উদাহরণ কেস

কেস: প্রান্তিক স্থাপনার জন্য একটি পূর্ব-প্রশিক্ষিত ভিআইটিতে টোফু প্রয়োগ

পরিস্থিতি: একজন ডেভেলপারের রিয়েল-টাইম চিত্র শ্রেণীবিভাগের জন্য একটি মোবাইল ডিভাইসে একটি ভিআইটি-বি মডেল চালানোর প্রয়োজন। সম্পূর্ণ মডেলটি খুব ধীর।

কাঠামো প্রয়োগ:

প্রোফাইলিং: মডেলের মাধ্যমে একটি ছোট ক্যালিব্রেশন ডেটাসেট চালান। প্রতিটি ট্রান্সফরমার ব্লকের জন্য, টোকেন জোড়া নমুনা করে এবং আউটপুট ইন্টারপোলেশন ত্রুটি পরীক্ষা করে রৈখিকতা মেট্রিক $\mathcal{L}$ গণনা করুন।
কৌশল মানচিত্র: একটি প্রোফাইল তৈরি করুন: ব্লক ১-৩ (নিম্ন রৈখিকতা) → প্রুনিং পছন্দ করুন। ব্লক ৪-৮ (উচ্চ রৈখিকতা) → এমএলইআরপি মার্জিং পছন্দ করুন। চূড়ান্ত ব্লক (নিম্ন রৈখিকতা) → প্রুনিং পছন্দ করুন।
কনফিগারেশন: একটি গ্লোবাল টোকেন হ্রাস বাজেট সেট করুন (যেমন, ৩৫%)। নিম্ন-রৈখিকতা ব্লকে প্রুনিং এবং উচ্চ-রৈখিকতা ব্লকে এমএলইআরপি মার্জিং প্রয়োগ করুন, গুরুত্ব স্কোর থেকে প্রাপ্ত প্রতি-ব্লক বাজেট মেনে চলুন।
মূল্যায়ন: সংকুচিত মডেল স্থাপন করুন। অভিযোজিত পদ্ধতিটি একটি সর্বজনীন পদ্ধতির তুলনায় ন্যূনতম নির্ভুলতা হ্রাস নিশ্চিত করে, কারণ এটি সংবেদনশীল অ-রৈখিক স্তরগুলিতে আক্রমণাত্মক মার্জিং এড়ায়।

এই উদাহরণটি টোফুর ব্যবহারিক উপযোগিতা প্রদর্শন করে একটি কাঠামোগত সংকোচন কাঠামো হিসাবে, শুধুমাত্র একটি একক অ্যালগরিদম নয়।

6. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশ

মাল্টিমোডাল ট্রান্সফরমার: টোফুকে ভিডিও, অডিও বা মাল্টিমোডাল (যেমন, সিএলআইপি, ফ্লেমিঙ্গো) ট্রান্সফরমারে প্রসারিত করা যেখানে টোকেন গতিবিদ্যা আরও জটিল।
হার্ডওয়্যার-সচেতন সহ-নকশা: নির্দিষ্ট এআই অ্যাক্সিলারেটর (এনপিইউ, জিপিইউ) এর জন্য টোফু সিদ্ধান্ত অ্যালগরিদম (প্রুন/মার্জ) এবং এমএলইআরপি বাস্তবায়ন অপ্টিমাইজ করা বাস্তব গতি বৃদ্ধি সর্বাধিক করার জন্য।
অন্যান্য কৌশলের সাথে একীকরণ: যৌগিক দক্ষতা লাভের জন্য টোফুকে কোয়ান্টাইজেশন, জ্ঞান পাতন, বা দক্ষ মনোযোগ প্রক্রিয়া (লিনফরমারের মতো) এর সাথে একত্রিত করা।
স্বয়ংক্রিয় হাইপারপ্যারামিটার অনুসন্ধান: নিউরাল আর্কিটেকচার অনুসন্ধান (এনএএস) বা রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে সর্বোত্তম প্রতি-স্তর প্রুনিং/মার্জিং অনুপাত এবং রৈখিকতা থ্রেশহোল্ড স্বয়ংক্রিয়ভাবে নির্ধারণ করা।
ভিশনের বাইরে: সিকোয়েন্স সংকোচনের জন্য বৃহৎ ভাষা মডেল (এলএলএম) এর মধ্যে এর কার্যকারিতা অন্বেষণ করা, যদিও টোকেন শব্দার্থবিদ্যা উল্লেখযোগ্যভাবে ভিন্ন।

7. তথ্যসূত্র

Dosovitskiy, A., et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." ICLR 2021.
Bolya, D., et al. "Token Merging: Your ViT But Faster." ICLR 2023 (ToMe).
Wang, Y., et al. "DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification." NeurIPS 2021.
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022.
Zhu, J.Y., et al. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV 2017 (CycleGAN).
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017.

8. বিশেষজ্ঞ বিশ্লেষণ ও সমালোচনামূলক অন্তর্দৃষ্টি

মূল অন্তর্দৃষ্টি: টোফু শুধু আরেকটি সংকোচন সরঞ্জাম নয়; এটি একটি আনুষ্ঠানিক স্বীকৃতি যে ট্রান্সফরমার স্তরগুলি ভিন্নধর্মী। সমস্ত স্তরকে একই সংকোচন আদিম দিয়ে আচরণ করা সরল। গবেষণাপত্রের উজ্জ্বলতা এর রোগনির্ণয়মূলক পদ্ধতিতে নিহিত—সঠিক "অস্ত্রোপচার" (প্রুন বা মার্জ) নির্ধারণ করতে স্তর রৈখিকতা পরিমাপ করা। এটি আধুনিক কম্পাইলারগুলি অপ্টিমাইজেশন প্রয়োগ করতে কোড প্রোফাইল করে তারই স্মরণ করিয়ে দেয়, এমএল দক্ষতা গবেষণায় প্রায়শই অনুপস্থিত একটি পরিশীলিত স্তর।

যুক্তিগত প্রবাহ: যুক্তিটি আকর্ষণীয়: ১) দেখান গড় মার্জিং অ-রৈখিক স্তরগুলিতে ব্যর্থ হয় (চিত্র ১)। ২) এই ব্যর্থতার মোড (রৈখিকতা) সনাক্ত করার জন্য একটি মেট্রিক প্রস্তাব করুন। ৩) টোকেন রুট করতে মেট্রিক ব্যবহার করুন। ৪) এমএলইআরপি দিয়ে ব্যর্থ অপারেশন (গড় মার্জ) ঠিক করুন। সমস্যা সনাক্তকরণ থেকে একটি বহু-উপাদান সমাধানের প্রবাহ পরিষ্কার এবং যুক্তিগত।

শক্তি ও ত্রুটি:
শক্তি: সংকর পদ্ধতিটি তাত্ত্বিকভাবে শক্তিশালী এবং কাজ জুড়ে অভিজ্ঞতামূলকভাবে বৈধ। এমএলইআরপি একটি বাস্তব সমস্যার (নর্ম পতন) একটি সহজ কিন্তু চতুর সমাধান। জিরো-শট প্রয়োগযোগ্যতা বিদ্যমান মডেল স্থাপনের জন্য একটি প্রধান ব্যবহারিক সুবিধা।
ত্রুটি: গবেষণাপত্রটি "রৈখিকতা মূল্যায়ন" এর ওভারহেড কিছুটা কম মূল্যায়ন করে। এটি কি একটি পূর্ব-গণিত প্রোফাইল (স্থির) বা চলমানভাবে গণনা করা হয় (গতিশীল ওভারহেড)? এমএলইআরপির সুবিধাগুলি, যদিও স্পষ্ট, শ্রেণীবিভাগে মাঝারি মনে হয়; এর প্রকৃত মূল্য উৎপাদন কাজে আরও স্পষ্ট বলে মনে হয়, ডিফিউশন মডেল সাহিত্য থেকে অনুসন্ধানের সাথে সামঞ্জস্যপূর্ণ যেখানে আউটপুট বন্টন সর্বোচ্চ গুরুত্বপূর্ণ। তুলনাটি, যদিও ন্যায্য, সর্বশেষ পোস্ট-ট্রেনিং কোয়ান্টাইজেশন পদ্ধতির বিরুদ্ধে আরও আক্রমণাত্মক হতে পারে যা অর্থোগোনাল সুবিধা দেয়।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য: ভিআইটির জন্য টোকেন হ্রাসের প্রথম-লাইন পদ্ধতি হিসাবে অবিলম্বে টোফু/এমএলইআরপি গ্রহণ করুন, বিশেষত উৎপাদন কাজের জন্য। এটি ডিফল্ট মার্জিং কৌশল হিসাবে টোমেকে প্রতিস্থাপন করে। গবেষকদের জন্য: "স্তর-সচেতন সংকোচন" দৃষ্টান্ত হল মূল টেকওয়ে। ভবিষ্যতের কাজ স্বয়ংক্রিয়ভাবে সংকোচন-বান্ধব বনাম সংকোচন-সংবেদনশীল মডেল অঞ্চল সনাক্ত করার উপর ফোকাস করা উচিত, সম্ভবত সিএনএন-এ নেটওয়ার্ক প্রুনিংয়ের কাজ বা সাইকেলজিএএন-এর মতো জিএএন-এ মোড পতনের বিশ্লেষণ থেকে অনুপ্রেরণা নেওয়া। পরবর্তী সীমান্ত হল এমন মডেল তৈরি করা যা নকশা দ্বারা অন্তর্নিহিতভাবে দক্ষ, শুধুমাত্র পোস্ট-হক সংকোচনের বাইরে গিয়ে এই ধরনের রোগনির্ণয়মূলক গবেষণা থেকে অন্তর্দৃষ্টি ব্যবহার করে আর্কিটেকচার অনুসন্ধানকে অবহিত করা।