স্ট্রাডা-এলএলএম: স্থান-কালীন ট্রাফিক পূর্বাভাসের জন্য একটি গ্রাফ-সমৃদ্ধ বৃহৎ ভাষা মডেল

1. ভূমিকা

ট্রাফিক পূর্বাভাস বুদ্ধিমান পরিবহন ব্যবস্থার (আইটিএস) একটি মৌলিক স্তম্ভ, যেখানে সঠিক পূর্বাভাস সরাসরি কার্যকারিতা, নিরাপত্তা এবং নগর পরিকল্পনাকে প্রভাবিত করে। মূল চ্যালেঞ্জটি বিভিন্ন অবস্থানের ট্রাফিক অবস্থার বৈচিত্র্যতা-তে নিহিত, যা অত্যন্ত বৈচিত্র্যময় ডেটা বন্টনের দিকে নিয়ে যায় এবং ঐতিহ্যগত মডেলগুলির জন্য এটি জেনারালাইজ করা কঠিন। যদিও বৃহৎ ভাষা মডেল (এলএলএম) এই ধরনের গতিশীল পরিস্থিতিতে ফিউ-শট লার্নিংয়ে প্রতিশ্রুতিশীলতা দেখিয়েছে, বিদ্যমান এলএলএম-ভিত্তিক সমাধানগুলি প্রায়শই প্রম্পট-টিউনিং-এর উপর নির্ভর করে, যা ট্রাফিক নেটওয়ার্কের অন্তর্নিহিত জটিল গ্রাফ সম্পর্ক এবং স্থান-কালীন নির্ভরতা সম্পূর্ণরূপে ক্যাপচার করতে সংগ্রাম করে। এই সীমাবদ্ধতা বাস্তব-বিশ্বের প্রয়োগে মডেলের অভিযোজনযোগ্যতা এবং ব্যাখ্যাযোগ্যতা উভয়কেই বাধা দেয়।

স্ট্রাডা-এলএলএম এই ফাঁকগুলি পূরণের জন্য চালু করা হয়েছে। এটি একটি নতুন বহু-পরিবর্তনশীল সম্ভাব্য পূর্বাভাস এলএলএম যা সময়গত এবং স্থানিক ট্রাফিক প্যাটার্ন উভয়কেই স্পষ্টভাবে মডেল করে। নিকটবর্তী ট্রাফিক তথ্যকে সহ-পরিবর্তনশীল হিসাবে অন্তর্ভুক্ত করে এবং একটি লাইটওয়েট ডোমেইন অভিযোজন কৌশল ব্যবহার করে, স্ট্রাডা-এলএলএম বিদ্যমান প্রম্পট-ভিত্তিক এলএলএম এবং ঐতিহ্যগত গ্রাফ নিউরাল নেটওয়ার্ক (জিএনএন) মডেলগুলিকে ছাড়িয়ে যাওয়ার লক্ষ্য রাখে, বিশেষত ডেটা-বিরল বা নতুন নেটওয়ার্ক পরিস্থিতিতে।

2. পদ্ধতি

2.1. মডেল স্থাপত্য

স্ট্রাডা-এলএলএম-এর স্থাপত্য এলএলএম-এর ক্রম মডেলিং দক্ষতা এবং জিএনএন-এর কাঠামোগত আনয়ন পক্ষপাতকে একত্রিত করার জন্য ডিজাইন করা হয়েছে। মূল ধারণাটি হল একটি ট্রাফিক নেটওয়ার্ককে একটি গ্রাফ $G = (V, E)$ হিসাবে বিবেচনা করা, যেখানে নোড $V$ সেন্সর বা রাস্তার অংশগুলিকে উপস্থাপন করে এবং এজ $E$ স্থানিক সংযোগকে উপস্থাপন করে। ঐতিহাসিক ট্রাফিক ডেটা (যেমন, গতি, প্রবাহ) $C$ চ্যানেল সহ $T$ সময় ধাপে $N$ নোডের জন্য বহু-পরিবর্তনশীল সময় সিরিজ $X \in \mathbb{R}^{N \times T \times C}$ গঠন করে।

মডেলটি এই ডেটাকে একটি দ্বৈত-পথ এনকোডারের মাধ্যমে প্রক্রিয়া করে: (1) একটি সময়গত এনকোডার (জিপিটি বা ল্লামার মতো একটি এলএলএম ব্যাকবোনের উপর ভিত্তি করে) প্রতিটি নোডের সময় সিরিজের মধ্যে দীর্ঘ-পরিসরের নির্ভরতা এবং পর্যায়ক্রমিক প্যাটার্ন ক্যাপচার করে। (2) একটি স্থানিক এনকোডার (একটি লাইটওয়েট জিএনএন) গ্রাফ কাঠামোর উপর কাজ করে প্রতিবেশী নোডগুলি থেকে তথ্য সংগ্রহ করে, ভূমিকায় উল্লিখিত স্থানান্তর এবং প্রতিক্রিয়া প্রভাবগুলি ক্যাপচার করে। এই এনকোডারগুলির আউটপুটগুলি একত্রিত করে একটি স্থান-কালীনভাবে সমৃদ্ধ উপস্থাপনা তৈরি করা হয়।

2.2. নিকটবর্তী সহ-পরিবর্তনশীল সংযোজন

একটি মূল উদ্ভাবন হল নিকটবর্তী ট্রাফিক তথ্যকে সহ-পরিবর্তনশীল হিসাবে ব্যবহার। শুধুমাত্র টার্গেট নোডের ইতিহাসের উপর নির্ভর করার পরিবর্তে, স্ট্রাডা-এলএলএম তার পূর্বাভাসগুলিকে টপোলজিকালভাবে সংলগ্ন নোডগুলির সাম্প্রতিক অবস্থার উপর শর্তযুক্ত করে। আনুষ্ঠানিকভাবে, সময় $t$-এ একটি টার্গেট নোড $i$-এর জন্য, ইনপুটটিতে $X_i^{(t-H:t)}$ এবং $\{X_j^{(t-H:t)} | j \in \mathcal{N}(i)\}$ অন্তর্ভুক্ত থাকে, যেখানে $\mathcal{N}(i)$ প্রতিবেশীদের সেট এবং $H$ হল ঐতিহাসিক উইন্ডো। এটি টার্গেট অবস্থানে সম্পূর্ণরূপে প্রকাশিত হওয়ার আগেই উদীয়মান যানজট বা প্রবাহ প্যাটার্ন সম্পর্কে গুরুত্বপূর্ণ প্রাসঙ্গিক সংকেত প্রদান করে।

2.3. বন্টন-উদ্ভূত ডোমেইন অভিযোজন

বন্টন পরিবর্তন (যেমন, শহর A-তে প্রশিক্ষিত একটি মডেল শহর B-তে প্রয়োগ করা) মোকাবেলা করার জন্য, স্ট্রাডা-এলএলএম একটি প্যারামিটার-দক্ষ ডোমেইন অভিযোজন কৌশল প্রস্তাব করে। সমস্ত মডেল প্যারামিটার ফাইন-টিউন করার পরিবর্তে, এটি নতুন টার্গেট ডেটার পরিসংখ্যানগত বন্টন (যেমন, গড়, প্রকরণ, স্বয়ং-সম্পর্ক) বিশ্লেষণ করে উদ্ভূত প্যারামিটারের একটি ছোট উপসেট শনাক্ত করে এবং আপডেট করে। এটি ফিউ-শট সীমাবদ্ধতার অধীনে দ্রুত অভিযোজনের অনুমতি দেয়, মডেলটিকে বিভিন্ন নগর নেটওয়ার্ক জুড়ে মোতায়েনের জন্য অত্যন্ত ব্যবহারিক করে তোলে।

3. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

পূর্বাভাসের উদ্দেশ্য হল ভবিষ্যত ট্রাফিক অবস্থার শর্তাধীন সম্ভাব্যতা মডেল করা: $$P(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ যেখানে $F$ হল পূর্বাভাসের দিগন্ত। স্ট্রাডা-এলএলএম এটিকে একটি বহু-পরিবর্তনশীল গাউসিয়ান বন্টন হিসাবে প্যারামিটারাইজ করে: $$\hat{X}^{(t+1:t+F)} \sim \mathcal{N}(\mu_{\theta}, \Sigma_{\theta})$$ মডেল প্যারামিটার $\theta$ নেতিবাচক লগ-সম্ভাবনা কমিয়ে শেখা হয়: $$\mathcal{L} = -\log P_{\theta}(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ জিএনএন উপাদানের স্থানিক সমষ্টিকরণ একটি বার্তা-প্রেরণ স্কিম দ্বারা বর্ণনা করা যেতে পারে। স্তর $l$-এ নোড $i$-এর জন্য: $$h_i^{(l)} = \text{UPDATE}\left(h_i^{(l-1)}, \text{AGGREGATE}\left(\{h_j^{(l-1)} | j \in \mathcal{N}(i)\}\right)\right)$$ যেখানে $h_i$ হল নোড এমবেডিং। AGGREGATE ফাংশনটি গড় পুলিং বা অ্যাটেনশন-ভিত্তিক হতে পারে, যা সংযুক্ত নোডগুলির মধ্যে প্রভাবের শক্তি ক্যাপচার করে।

4. পরীক্ষামূলক ফলাফল ও বিশ্লেষণ

4.1. ডেটাসেট ও তুলনামূলক মডেল

মূল্যায়ন করা হয়েছিল স্ট্যান্ডার্ড স্থান-কালীন পরিবহন ডেটাসেট যেমন PeMS এবং METR-LA-তে, যাতে সেন্সর নেটওয়ার্ক থেকে ট্রাফিক গতি/প্রবাহ ডেটা রয়েছে। তুলনামূলক মডেলগুলির মধ্যে অন্তর্ভুক্ত ছিল:

ঐতিহ্যগত সময় সিরিজ মডেল: ARIMA, VAR.
গভীর শিক্ষণ মডেল: TCN, LSTM.
জিএনএন-ভিত্তিক সর্বশেষ প্রযুক্তি: DCRNN, STGCN, GraphWaveNet.
এলএলএম-ভিত্তিক মডেল: জিপিটি-৩, ল্লামার প্রম্পট-টিউন করা সংস্করণ।

4.2. কার্যকারিতা মেট্রিক্স

প্রাথমিক মেট্রিক্স ছিল পয়েন্ট পূর্বাভাসের জন্য রুট মিন স্কোয়ার ত্রুটি (আরএমএসই) এবং গড় পরম ত্রুটি (এমএই), এবং সম্ভাব্য পূর্বাভাসের জন্য ক্রমাগত ক্রমযুক্ত সম্ভাব্যতা স্কোর (সিআরপিএস)।

কার্যকারিতা উন্নতি

১৭%

দীর্ঘমেয়াদী পূর্বাভাসে সর্বশেষ প্রযুক্তির এলএলএম-চালিত মডেলের তুলনায় আরএমএসই হ্রাস।

দক্ষতা লাভ

১৬%

এলএলএম ব্যাকবোনের সম্পূর্ণ ফাইন-টিউনিংয়ের তুলনায় আরও দক্ষ প্যারামিটার ব্যবহার।

দৃঢ়তা

ন্যূনতম

এলএলএম ব্যাকবোন পরিবর্তন করার সময় কার্যকারিতা হ্রাস (যেমন, জিপিটি থেকে ল্লামা)।

4.3. মূল সন্ধান

উৎকৃষ্ট পূর্বাভাস নির্ভুলতা: স্ট্রাডা-এলএলএম ধারাবাহিকভাবে সমস্ত তুলনামূলক মডেলকে ছাড়িয়ে গেছে, বিশেষত দীর্ঘ-দিগন্ত পূর্বাভাসে (যেমন, ৬০-৯০ মিনিট আগে)। প্রম্পট-ভিত্তিক এলএলএমগুলির উপর ১৭% আরএমএসই উন্নতি গ্রাফ কাঠামোকে স্পষ্টভাবে মডেল করার মূল্যকে তুলে ধরে।

কার্যকর ফিউ-শট অভিযোজন: বন্টন-উদ্ভূত অভিযোজন কৌশলটি স্ট্রাডা-এলএলএমকে একটি নতুন শহরের ডেটাতে মাত্র কয়েক দিনের নমুনা দেখার পর তার শীর্ষ কার্যকারিতার >৯০% অর্জন করতে দিয়েছে, যা উল্লেখযোগ্য ডেটা দক্ষতা প্রদর্শন করে।

ব্যাখ্যাযোগ্যতা: এলএলএম সময়গত এনকোডারে অ্যাটেনশন ওজন এবং জিএনএনে শেখা এজ ওজন বিশ্লেষণ করে, মডেলটি প্রদত্ত পূর্বাভাসের জন্য কোন ঐতিহাসিক সময় বিন্দু এবং কোন প্রতিবেশী নোডগুলি সবচেয়ে প্রভাবশালী ছিল সে সম্পর্কে অন্তর্দৃষ্টি প্রদান করতে পারে।

5. বিশ্লেষণ কাঠামো: মূল অন্তর্দৃষ্টি ও সমালোচনা

মূল অন্তর্দৃষ্টি

স্ট্রাডা-এলএলএম শুধু ট্রাফিকের জন্য আরেকটি এআই মডেল নয়; এটি হাইব্রিড বুদ্ধিমত্তা-র উপর একটি কৌশলগত বাজি। লেখকরা সঠিকভাবে চিহ্নিত করেছেন যে ট্রাফিক নেটওয়ার্কের মতো কাঠামোগত, সম্পর্কিত ডেটার জন্য একক এলএলএম-এর খাঁটি প্রম্পট-টিউনিং একটি অচলাবস্থা। তাদের মূল অন্তর্দৃষ্টি হল যে এলএলএমগুলিকে সময়গত যুক্তির ইঞ্জিন হওয়া উচিত, যখন জিএনএনগুলি স্থানিক কাঠামো কম্পাইলার হিসাবে কাজ করে। এটি টেক্সট প্রম্পটের মাধ্যমে সবকিছু জোর করার চেষ্টা করার চেয়ে একটি আরও স্থাপত্যিকভাবে শব্দ পদ্ধতি, যেভাবে ভিশন-ল্যাঙ্গুয়েজ মডেলগুলি ছবি এবং টেক্সটের জন্য পৃথক এনকোডার ব্যবহার করে।

যুক্তিগত প্রবাহ

যুক্তিটি আকর্ষণীয়: ১) ট্রাফিকের অন্তর্নিহিত গ্রাফ কাঠামো রয়েছে → একটি জিএনএন ব্যবহার করুন। ২) ট্রাফিক সময় সিরিজের জটিল দীর্ঘমেয়াদী নির্ভরতা রয়েছে → একটি এলএলএম ব্যবহার করুন। ৩) সেগুলিকে সরলভাবে একত্রিত করা প্যারামিটার-ভারী এবং মড্যালিটিগুলিকে সারিবদ্ধ নাও করতে পারে → নিকটবর্তী সহ-পরিবর্তনশীল সহ একটি ফোকাসড ফিউশন মেকানিজম ডিজাইন করুন। ৪) বাস্তব-বিশ্বের মোতায়েন বন্টন পরিবর্তনের সম্মুখীন হয় → একটি লাইটওয়েট, পরিসংখ্যান-চালিত অ্যাডাপ্টার উদ্ভাবন করুন। এটি এমএল সিস্টেম ডিজাইনে সমস্যা বিশ্লেষণের একটি আদর্শ উদাহরণ।

শক্তি ও ত্রুটি

শক্তি: প্যারামিটার-দক্ষ ডোমেইন অভিযোজন হল বাস্তব-বিশ্বের কার্যকারিতার জন্য কাগজের কিলার ফিচার। এটি শহর-স্কেল আইটিএস মোতায়েনে "কোল্ড-স্টার্ট" সমস্যাটি সরাসরি মোকাবেলা করে। সম্ভাব্য পূর্বাভাসের উপর ফোকাসটিও প্রশংসনীয়, যা পয়েন্ট অনুমান থেকে অনিশ্চয়তা পরিমাপে এগিয়ে যায়, যা পরিবহনে ঝুঁকি-সচেতন সিদ্ধান্ত গ্রহণের জন্য গুরুত্বপূর্ণ।

ত্রুটি ও উন্মুক্ত প্রশ্ন: কক্ষে উপস্থিত হাতিটি হল গণনীয় খরচ। সম্পূর্ণ ফাইন-টিউনিংয়ের চেয়ে বেশি দক্ষ হলেও, রিয়েল-টাইমে শত শত সেন্সরের জন্য একটি এলএলএম ব্যাকবোন (এমনকি একটি ৭বি প্যারামিটার মডেল) চালানো তুচ্ছ নয়। কাগজটিতে অনলাইন পূর্বাভাসের জন্য একটি কঠোর লেটেন্সি বিশ্লেষণের অভাব রয়েছে। তদুপরি, "গ্রাফ" কে স্থির (রাস্তা নেটওয়ার্ক) ধরে নেওয়া হয়। এটি গতিশীল গ্রাফগুলিকে উপেক্ষা করে যা দুর্ঘটনা বা রাস্তা বন্ধের মতো অস্থায়ী ঘটনাগুলিকে উপস্থাপন করতে পারে, ডাইনামিক গ্রাফ নিউরাল নেটওয়ার্কস (পারেজা এট আল., নিউরআইপিএস ২০২০) এর মতো কাজগুলিতে অন্বেষণ করা একটি ফ্রন্টিয়ার। স্ট্যান্ডার্ড বেঞ্চমার্কগুলির মূল্যায়ন শক্তিশালী, তবে একটি সত্যিকারের স্ট্রেস টেস্টে শহরগুলির আরও বৈচিত্র্যময় মিশ্রণ জড়িত থাকবে (যেমন, ইউরোপীয় গ্রিড বনাম আমেরিকান স্প্রল)।

কার্যকরী অন্তর্দৃষ্টি

অনুশীলনকারীদের জন্য: প্রথমে করিডোর-স্তরের ব্যবস্থাপনার জন্য এই স্থাপত্যটি পাইলট করুন, শহরব্যাপী নয়, গণনা খরচ পরিচালনা করার জন্য। ডোমেইন অভিযোজন মডিউলটি বের করা যেতে পারে এবং সম্ভাব্যভাবে অন্যান্য স্থান-কালীন মডেলগুলির সাথে ব্যবহার করা যেতে পারে। গবেষকদের জন্য: সবচেয়ে বড় সুযোগ হল সাধারণ-উদ্দেশ্য এলএলএম ব্যাকবোনকে একটি সময়-সিরিজ-নির্দিষ্ট মৌলিক মডেল (যেমন গুগলের টাইমসএফএম) দিয়ে প্রতিস্থাপন করা, যা দক্ষতা আমূল উন্নত করতে পারে। আরেকটি উপায় হল বহিরাগত ডেটা (আবহাওয়া, ঘটনা) কে শুধুমাত্র সহ-পরিবর্তনশীল হিসাবে নয় বরং একটি মাল্টি-মডেল ফিউশন স্তরের মাধ্যমে একীভূত করা, একটি সত্যিকারের "নগর ডিজিটাল টুইন" মডেল তৈরি করা।

6. প্রয়োগের সম্ভাবনা ও ভবিষ্যৎ দিকনির্দেশনা

স্বল্পমেয়াদী (১-৩ বছর): যানজট পূর্বাভাস এবং প্রশমন এর জন্য ট্রাফিক ব্যবস্থাপনা কেন্দ্রে মোতায়েন। স্ট্রাডা-এলএলএম গতিশীল ট্রাফিক সংকেত নিয়ন্ত্রণ ব্যবস্থাগুলিকে শক্তি দিতে পারে যা পূর্বাভাসিত প্রবাহের উপর ভিত্তি করে সক্রিয়ভাবে সময়সূচী সামঞ্জস্য করে। এর ফিউ-শট অভিযোজন এটিকে বিশেষ ইভেন্ট ব্যবস্থাপনা (খেলাধুলা, কনসার্ট) এর জন্য উপযুক্ত করে তোলে যেখানে ঐতিহাসিক ডেটা বিরল কিন্তু প্যাটার্নগুলি দ্রুত উদ্ভূত হয়।

মধ্যমেয়াদী (৩-৫ বছর): স্বায়ত্তশাসিত যান (এভি) রুটিং সিস্টেম এর সাথে একীকরণ। এভি বহরগুলি বিভিন্ন রুটের ঝুঁকি মূল্যায়ন করতে স্ট্রাডা-এলএলএম-এর সম্ভাব্য পূর্বাভাস ব্যবহার করতে পারে, শুধুমাত্র বর্তমান ভ্রমণের সময়ের জন্য নয়, পূর্বাভাসিত স্থিতিশীলতা এবং নির্ভরযোগ্যতার জন্য অপ্টিমাইজ করে। এটি মালবাহী এবং সরবরাহ পরিকল্পনা বৃদ্ধি করতে পারে।

দীর্ঘমেয়াদী ও গবেষণা ফ্রন্টিয়ার:

জেনারেটিভ নগর পরিকল্পনা: প্রস্তাবিত অবকাঠামো পরিবর্তনের ট্রাফিক প্রভাব মূল্যায়ন করতে স্ট্রাডা-এলএলএমকে একটি সিমুলেটর হিসাবে ব্যবহার করা (নতুন রাস্তা, জোনিং আইন)।
মাল্টিমডাল ইন্টিগ্রেশন: যানবাহনের ট্রাফিকের বাইরে প্রসারিত হয়ে সমন্বিত গতিশীলতা মডেল করা, যার মধ্যে পথচারী প্রবাহ, বাইক-শেয়ারিং চাহিদা এবং পাবলিক ট্রানজিট দখল অন্তর্ভুক্ত, যার জন্য ভিন্নধর্মী গ্রাফ উপস্থাপনা প্রয়োজন।
কার্যকারণ অনুমান: পারস্পরিক সম্পর্ক থেকে কার্যকারণে যাওয়া। মডেলটি "কী হবে যদি" প্রশ্নের উত্তর দিতে পারে, যেমন একটি নির্দিষ্ট লেন বন্ধ করার সুনির্দিষ্ট প্রভাব? এটি কার্যকারণ উপস্থাপনা শিক্ষার ক্রমবর্ধমান ক্ষেত্রের সাথে সামঞ্জস্যপূর্ণ।
গতিশীলতার জন্য মৌলিক মডেল: স্ট্রাডা-এলএলএম-এর স্থাপত্যকে স্কেল করা যেতে পারে এবং নগর পরিবেশে সমস্ত স্থান-কালীন পূর্বাভাস কাজের জন্য একটি মৌলিক মডেল তৈরি করতে বিশ্বব্যাপী ট্রাফিক ডেটাতে প্রি-ট্রেন করা যেতে পারে।

7. তথ্যসূত্র

Moghadas, S. M., Cornelis, B., Alahi, A., & Munteanu, A. (2025). Strada-LLM: Graph LLM for traffic prediction. Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '25).
Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).
Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. International Conference on Learning Representations (ICLR).
Li, Y., et al. (2018). Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. International Conference on Learning Representations (ICLR).
Pareja, A., et al. (2020). EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs. Proceedings of the AAAI Conference on Artificial Intelligence.
Wu, N., et al. (2023). TimesFM: A Foundation Model for Time Series Forecasting. Google Research. [Preprint].
OpenStreetMap contributors. (2024). Planet dump. Retrieved from https://www.openstreetmap.org.
California Department of Transportation (Caltrans). (2024). Performance Measurement System (PeMS). Retrieved from http://pems.dot.ca.gov.