Strada-LLM: स्पेसियो-टेम्पोरल ट्रैफिक पूर्वानुमान के लिए एक ग्राफ-एन्हांस्ड लार्ज लैंग्वेज मॉडल

1. परिचय

यातायात पूर्वानुमान इंटेलिजेंट ट्रांसपोर्टेशन सिस्टम (ITS) की आधारशिला है, सटीक पूर्वानुमान सीधे संचालन दक्षता, सुरक्षा और शहरी नियोजन को प्रभावित करता है। मुख्य चुनौती विभिन्न स्थानों पर यातायात स्थितियों कीविषमतामें निहित है, जो अत्यधिक विविध डेटा वितरण का कारण बनती है, जिससे पारंपरिक मॉडलों के लिए विभिन्न परिदृश्यों में सामान्यीकरण हासिल करना मुश्किल हो जाता है। हालांकि बड़े भाषा मॉडल (LLMs) ने इस तरह के गतिशील परिदृश्यों में कम-नमूना सीखने में क्षमता दिखाई है, लेकिन LLM-आधारित मौजूदा समाधान आमतौर पर प्रॉम्प्ट ट्यूनिंग पर निर्भर करते हैं और यातायात नेटवर्क में निहित जटिलग्राफ संबंधों和और स्थान-समय निर्भरताओंको पूरी तरह से समझने में असमर्थ हैं। यह सीमा वास्तविक दुनिया के अनुप्रयोगों में मॉडल की अनुकूलनशीलता और व्याख्यात्मकता को बाधित करती है।

Strada-LLM का प्रस्ताव इन अंतरालों को पाटने के लिए है। यह एक नवीनबहु-परिवर्तनीय संभाव्य पूर्वानुमान बड़ा भाषा मॉडल है।, जो समय और स्थानिक यातायात पैटर्न का स्पष्ट रूप से मॉडलिंग करने में सक्षम है। निकटवर्ती यातायात सूचना को सहचर चर के रूप में शामिल करके और एक हल्की-फुल्की डोमेन अनुकूलन रणनीति अपनाकर, Strada-LLM का लक्ष्य मौजूदा प्रॉम्प्ट-आधारित बृहत् भाषा मॉडल और पारंपरिक ग्राफ न्यूरल नेटवर्क (GNN) मॉडलों को पार करना है, विशेष रूप से डेटा विरल या नए नेटवर्क परिदृश्यों में।

2. कार्यप्रणाली

2.1. मॉडल आर्किटेक्चर

Strada-LLM का आर्किटेक्चर LLMs की अनुक्रम मॉडलिंग क्षमता और GNNs के संरचनात्मक प्रेरण पूर्वाग्रह को सम्मिलित करने के लिए डिज़ाइन किया गया है। इसका मूल विचार यातायात नेटवर्क को एक ग्राफ $G = (V, E)$ के रूप में देखना है, जहां नोड $V$ सेंसर या खंडों का प्रतिनिधित्व करते हैं और किनारे $E$ स्थानिक संयोजकता का प्रतिनिधित्व करते हैं। ऐतिहासिक यातायात डेटा (जैसे गति, प्रवाह) $C$ चैनलों वाले $N$ नोड्स के लिए $T$ समय चरणों में एक बहुविभाज्य समय श्रृंखला $X \in \mathbb{R}^{N \times T \times C}$ बनाता है।

मॉडल एक दो-पथ एनकोडर के माध्यम से इस डेटा को संसाधित करता है: (1) एकटेम्पोरल एनकोडर(GPT या LLaMA जैसे LLM बैकबोन पर आधारित) प्रत्येक नोड की समय श्रृंखला के भीतर दीर्घकालिक निर्भरताओं और आवधिक पैटर्न को पकड़ता है। (2) एकस्पेस एनकोडर(एक हल्का GNN) ग्राफ संरचना पर चलता है, पड़ोसी नोड्स से जानकारी एकत्र करता है, और परिचय में उल्लिखित स्थानांतरण और प्रतिक्रिया प्रभावों को पकड़ता है। इन एनकोडरों के आउटपुट को फ्यूज़ किया जाता है ताकि स्पेस-टाइम संदर्भ से समृद्ध प्रस्तुतियाँ बनाई जा सकें।

2.2. निकटवर्ती सहचर एकीकरण

एक महत्वपूर्ण नवाचार का उपयोग हैप्रॉक्सिमिटी ट्रैफिक जानकारी को कोवेरिएट के रूप में। Strada-LLM न केवल लक्ष्य नोड के ऐतिहासिक डेटा पर निर्भर करता है, बल्कि टोपोलॉजिकल रूप से आसन्न नोड्स की हाल की स्थिति को भी अपनी भविष्यवाणी के लिए एक शर्त के रूप में शामिल करता है। औपचारिक रूप से, समय $t$ पर लक्ष्य नोड $i$ के लिए, इनपुट में $X_i^{(t-H:t)}$ और $\{X_j^{(t-H:t)} | j \in \mathcal{N}(i)\}$ शामिल होते हैं, जहां $\mathcal{N}(i)$ पड़ोसियों का समुच्चय है और $H$ ऐतिहासिक विंडो है। यह उभरती भीड़ या ट्रैफिक पैटर्न के बारे में महत्वपूर्ण संदर्भ संकेत प्रदान करता है, जो लक्ष्य स्थान पर पूरी तरह से प्रकट होने से पहले ही मौजूद होते हैं।

2.3. वितरण-आधारित डोमेन अनुकूलन

वितरण शिफ्ट समस्या (जैसे, शहर A में प्रशिक्षित मॉडल को शहर B पर लागू करना) को हल करने के लिए, Strada-LLM एक प्रस्तावित करता हैपैरामीटर-कुशल डोमेन अनुकूलन रणनीतियह सभी मॉडल पैरामीटर्स को फाइन-ट्यून नहीं करता है, बल्कि नए लक्ष्य डेटा के सांख्यिकीय वितरण (जैसे माध्य, विचरण, ऑटोकॉरिलेशन) का विश्लेषण करके, उससे प्राप्त पैरामीटर्स के एक छोटे उपसमुच्चय की पहचान करता है और केवल उन्हें अपडेट करता है। यह मॉडल को कम-नमूना बाध्यता के तहत तेजी से अनुकूलन करने में सक्षम बनाता है, जिससे यह विविध शहरी नेटवर्कों में तैनाती के लिए आदर्श बन जाता है।

3. तकनीकी विवरण एवं गणितीय सूत्र

पूर्वानुमान लक्ष्य भविष्य के यातायात स्थिति की सशर्त संभाव्यता को मॉडल करना है:

4. प्रयोगात्मक परिणाम एवं विश्लेषण

4.1. डेटासेट एवं बेसलाइन मॉडल

मूल्यांकन मानक स्पेसियो-टेम्पोरल यातायात डेटासेट पर किया गया, जैसेPeMS和METR-LA, ये डेटासेट सेंसर नेटवर्क से प्राप्त यातायात गति/प्रवाह डेटा शामिल करते हैं। बेसलाइन मॉडल में शामिल हैं:

पारंपरिक समय श्रृंखला मॉडल: ARIMA, VAR।
गहन शिक्षण मॉडल: TCN, LSTM।
GNN-आधारित SOTA मॉडल: DCRNN, STGCN, GraphWaveNet.
LLM आधारित मॉडल: GPT-3 और LLaMA के प्रॉम्प्ट ट्यूनिंग संस्करण।

4.2. प्रदर्शन मापदंड

मुख्य मेट्रिक्स में पॉइंट पूर्वानुमान के लिए शामिल हैंरूट मीन स्क्वायर एरर (RMSE)和मीन एब्सोल्यूट एरर (MAE), तथा संभाव्यता पूर्वानुमान के लिए उपयोग किए जाने वालेContinuous Ranked Probability Score (CRPS)。

प्रदर्शन में सुधार

17%

दीर्घकालिक पूर्वानुमान में, SOTA LLM-संचालित मॉडल की तुलना में, RMSE में कमी।

दक्षता लाभ

16%

LLM मुख्यभाग की पूर्ण फाइन-ट्यूनिंग की तुलना में, पैरामीटर उपयोग दक्षता अधिक है।

रोबस्टनेस

न्यूनतम

LLM मुख्यभाग स्विच करते समय (उदाहरण के लिए, GPT से LLaMA पर) प्रदर्शन में गिरावट न्यूनतम होती है।

4.3. मुख्य निष्कर्ष

उत्कृष्ट पूर्वानुमान सटीकता: Strada-LLM सभी आधारभूत मॉडलों से बेहतर प्रदर्शन करता है, विशेष रूप से दीर्घकालिक पूर्वानुमानों में (जैसे, 60-90 मिनट आगे के लिए)। प्रॉम्प्ट-आधारित LLMs की तुलना में, RMSE में 17% सुधार दर्शाता है, जो स्पष्ट रूप से ग्राफ संरचना को मॉडल करने के महत्व को रेखांकित करता है।

प्रभावी फ्यू-शॉट अनुकूलन: वितरण-आधारित अनुकूलन रणनीति Strada-LLM को किसी नए शहर के कुछ दिनों के नमूना डेटा देखने के बाद ही अपने शीर्ष प्रदर्शन के 90% से अधिक तक पहुंचने में सक्षम बनाती है, जो उत्कृष्ट डेटा दक्षता प्रदर्शित करती है।

व्याख्यात्मकता: LLM समय एनकोडर में ध्यान भार और GNN में सीखे गए एज भारों का विश्लेषण करके, यह मॉडल अंतर्दृष्टि प्रदान कर सकता है जो यह प्रकट करती है कि कौन से ऐतिहासिक समय बिंदु और कौन से पड़ोसी नोड्स किसी विशिष्ट पूर्वानुमान के लिए सबसे अधिक प्रभावशाली हैं।

5. विश्लेषणात्मक रूपरेखा: मुख्य अंतर्दृष्टि एवं समीक्षा

मुख्य अंतर्दृष्टियाँ

Strada-LLM केवल यातायात के लिए एक और AI मॉडल नहीं है; यहहाइब्रिड इंटेलिजेंसपर एक रणनीतिक दांव है। लेखक सही ढंग से इंगित करते हैं कि यातायात नेटवर्क जैसे संरचित, संबंधपरक डेटा के लिए, एक एकल LLM पर शुद्ध प्रॉम्प्ट ट्यूनिंग एक गतिरोध है। उनकी मूल अंतर्दृष्टि यह है कि LLM को एकटेम्पोरल रीजनिंग इंजनके रूप में कार्य करना चाहिए, जबकि GNNस्पेशियल स्ट्रक्चर कंपाइलरकी भूमिका निभाता है। यह एक ऐसा दृष्टिकोण है जो टेक्स्ट प्रॉम्प्ट के माध्यम से सब कुछ मजबूर करने का प्रयास करने की तुलना में वास्तुकला डिजाइन सिद्धांतों के अनुरूप है, जो विज़न-लैंग्वेज मॉडल के अलग-अलग इनकोडर का उपयोग करके छवियों और पाठ को संसाधित करने के समान है।

लॉजिकल थ्रेड

इसका तर्क अत्यंत प्रभावशाली है: 1) यातायात में अंतर्निहित ग्राफ संरचना होती है → GNN का उपयोग करें। 2) यातायात समय श्रृंखला में जटिल दीर्घकालिक निर्भरताएँ होती हैं → LLM का उपयोग करें। 3) उन्हें सीधे जोड़ने से पैरामीटर विशाल हो जाते हैं और मोडलिटी संरेखण नहीं हो सकता → एक फोकस्ड फ्यूजन मैकेनिज्म डिज़ाइन करें जिसमें निकटवर्ती कोवेरिएट्स शामिल हों। 4) वास्तविक तैनाती वितरण शिफ्ट का सामना करती है → एक हल्का, सांख्यिकीय-आधारित एडाप्टर आविष्कार करें। यह मशीन लर्निंग सिस्टम डिज़ाइन में समस्या अपघटन का एक आदर्श उदाहरण है।

शक्तियाँ एवं सीमाएँ

शक्तियाँ: पैरामीटर-कुशल डोमेन एडाप्टेशन वास्तविक दुनिया की व्यवहार्यता के लिए इस पेपर की किलर फीचर है। यह शहर-स्तरीय ITS तैनाती में "कोल्ड स्टार्ट" समस्या को सीधे संबोधित करता है। संभाव्य पूर्वानुमान पर ध्यान भी प्रशंसनीय है, जो पॉइंट एस्टीमेशन से आगे बढ़कर अनिश्चितता मापन की ओर जाता है, जो यातायात क्षेत्र में जोखिम-जागरूक निर्णय लेने के लिए महत्वपूर्ण है।

सीमाएँ एवं खुले प्रश्न: कमरे में हाथी यह है किकम्प्यूटेशनल लागतहालांकि यह पूर्ण फाइन-ट्यूनिंग की तुलना में अधिक कुशल है, लेकिन सैकड़ों सेंसर के लिए एक LLM बैकबोन (यहां तक कि 7 बिलियन पैरामीटर वाले मॉडल) को रीयल-टाइम में चलाना आसान नहीं है। यह पेपर ऑनलाइन भविष्यवाणी विलंबता के सख्त विश्लेषण का अभाव रखता है। इसके अलावा, यह मानता है कि "ग्राफ" स्थिर है (सड़क नेटवर्क)। यह डायनेमिक ग्राफ्स को नजरअंदाज करता है जो अस्थायी घटनाओं (जैसे दुर्घटनाएं या सड़क बंद) का प्रतिनिधित्व कर सकते हैं, जो किडायनेमिक ग्राफ न्यूरल नेटवर्क(Pareja et al., NeurIPS 2020) जैसे कार्यों में खोजे गए एक अग्रणी क्षेत्र है। मानक बेंचमार्क पर मूल्यांकन ठोस है, लेकिन वास्तविक तनाव परीक्षण के लिए अधिक विविध शहरी मिश्रण (जैसे, यूरोपीय ग्रिड लेआउट बनाम अमेरिकी फैलाव लेआउट) को शामिल करने की आवश्यकता है।

क्रियान्वयन योग्य अंतर्दृष्टि

व्यवसायिकों के लिए:कम्प्यूटेशनल लागत प्रबंधित करने के लिए, पहले इसे कॉरिडोर-स्तरीय प्रबंधन में पायलट करें, न कि पूरे शहर में। डोमेन एडाप्टेशन मॉड्यूल को निकाला जा सकता है और संभवतः अन्य स्पेशियो-टेम्पोरल मॉडल के साथ संयोजन में उपयोग किया जा सकता है। शोधकर्ताओं के लिए: सबसे बड़ा अवसर हैटाइम सीरीज़ के लिए विशेष रूप से डिज़ाइन किए गए फाउंडेशन मॉडल(जैसे Google का TimesFM) सामान्य LLM बैकबोन को प्रतिस्थापित करना, जो दक्षता में काफी वृद्धि कर सकता है। एक अन्य दृष्टिकोण बाहरी डेटा (मौसम, घटनाओं) को साधारण सहचर के रूप में नहीं, बल्कि मल्टीमॉडल फ्यूजन लेयर के माध्यम से एकीकृत करना है, जिससे एक वास्तविक "शहरी डिजिटल ट्विन" मॉडल बनाया जा सके।

6. अनुप्रयोग संभावनाएं एवं भविष्य की दिशाएं

अल्पकालिक (1-3 वर्ष): यातायात प्रबंधन केंद्रों में तैनाती, के लिएभीड़भाड़ पूर्वानुमान और न्यूनीकरण। Strada-LLM डायनेमिक ट्रैफिक सिग्नल कंट्रोल सिस्टम को सपोर्ट प्रदान कर सकता है, जो पूर्वानुमानित ट्रैफिक प्रवाह के आधार पर सिग्नल टाइमिंग को सक्रिय रूप से समायोजित करता है। इसकी फ़्यू-शॉट अनुकूलन क्षमता इसे के लिए उपयुक्त बनाती हैविशेष घटना प्रबंधन(खेल आयोजन, संगीत कार्यक्रम), ऐसे परिदृश्य जहां ऐतिहासिक डेटा विरल है लेकिन पैटर्न तेजी से उभरते हैं।

मध्यम अवधि (3-5 वर्ष): 与स्वायत्त वाहन (AV) पथ नियोजन प्रणालीएकीकरण। स्वायत्त वाहन बेड़े Strada-LLM की संभाव्य पूर्वानुमानों का उपयोग विभिन्न मार्गों के जोखिम का आकलन करने के लिए कर सकते हैं, न केवल वर्तमान यात्रा समय को अनुकूलित करते हुए, बल्कि पूर्वानुमान की स्थिरता और विश्वसनीयता को भी। यह और बढ़ा सकता हैमाल ढुलाई एवं रसद नियोजन。

दीर्घकालिक एवं शोध अग्रिम:

जनरेटिव शहरी नियोजन: Strada-LLM का एक सिम्युलेटर के रूप में उपयोग करते हुए, प्रस्तावित बुनियादी ढांचे में परिवर्तन (नई सड़कें, ज़ोनिंग नियम) के यातायात पर प्रभाव का मूल्यांकन करना।
बहु-मोडल एकीकरण: वाहन यातायात से परे, पैदल यात्री प्रवाह, साझा बाइक की मांग और सार्वजनिक परिवहन अधिभोग सहित समग्र यात्रा का मॉडलिंग करना, जिसके लिए विषम ग्राफ प्रतिनिधित्व की आवश्यकता होती है।
कारणात्मक अनुमान: सहसंबंध से कारणता की ओर। क्या मॉडल "क्या होगा यदि" प्रश्नों का उत्तर दे सकता है, जैसे किसी विशिष्ट लेन को बंद करने का सटीक प्रभाव? यह कारणात्मक प्रतिनिधित्व सीखने के बढ़ते क्षेत्र के अनुरूप है।
यात्रा फाउंडेशन मॉडल: Strada-LLM की वास्तुकला को वैश्विक यातायात डेटा पर विस्तारित और पूर्व-प्रशिक्षित किया जा सकता है, ताकि शहरी वातावरण में सभी स्थानिक-कालिक पूर्वानुमान कार्यों के लिए एक फाउंडेशन मॉडल बनाया जा सके।

7. संदर्भ सूची

Moghadas, S. M., Cornelis, B., Alahi, A., & Munteanu, A. (2025). Strada-LLM: Graph LLM for traffic prediction. 31वीं ACM SIGKDD ज्ञान खोज और डेटा खनन सम्मेलन की कार्यवाही (KDD '25).
Vaswani, A., et al. (2017). Attention is All You Need. तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति 30 (NeurIPS 2017).
Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. अंतर्राष्ट्रीय प्रतिनिधित्व अधिगम सम्मेलन (ICLR).
Li, Y., et al. (2018). Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. अंतर्राष्ट्रीय प्रतिनिधित्व अधिगम सम्मेलन (ICLR).
Pareja, A., et al. (2020). EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs. AAAI कृत्रिम बुद्धिमत्ता सम्मेलन की कार्यवाही.
Wu, N., et al. (2023). TimesFM: A Foundation Model for Time Series Forecasting. Google Research. [Preprint].
OpenStreetMap contributors. (2024). Planet dump. Retrieved from https://www.openstreetmap.org.
California Department of Transportation (Caltrans). (2024). Performance Measurement System (PeMS). Retrieved from http://pems.dot.ca.gov.