Strada-LLM: یک مدل زبان بزرگ تقویتشده با گراف برای پیش‌بینی ترافیک فضایی-زمانی

1. مقدمه

پیش‌بینی ترافیک سنگ بنای سیستم‌های حمل‌ونقل هوشمند (ITS) است، که پیش‌بینی‌های دقیق آن به‌طور مستقیم بر کارایی عملیاتی، ایمنی و برنامه‌ریزی شهری تأثیر می‌گذارد. چالش اصلی در ناهمگونی شرایط ترافیکی در مکان‌های مختلف نهفته است که منجر به توزیع‌های داده بسیار متنوعی می‌شود که مدل‌های سنتی در تعمیم دادن به آن‌ها مشکل دارند. در حالی که مدل‌های زبان بزرگ (LLM) در یادگیری کم‌نمونه برای چنین سناریوهای پویایی امیدوارکننده ظاهر شده‌اند، راه‌حل‌های مبتنی بر LLM موجود اغلب به تنظیم سریع (prompt-tuning) متکی هستند که در ثبت کامل روابط گراف و وابستگی‌های فضایی-زمانی ذاتی در شبکه‌های ترافیکی ناتوان است. این محدودیت، هم انطباق‌پذیری و هم تفسیرپذیری مدل را در کاربردهای دنیای واقعی مختل می‌کند.

Strada-LLM برای پر کردن این شکاف‌ها معرفی شده است. این یک مدل زبان بزرگ پیش‌بینی احتمالاتی چندمتغیره نوآورانه است که به‌طور صریح الگوهای ترافیکی زمانی و مکانی را مدل‌سازی می‌کند. با گنجاندن اطلاعات ترافیکی مجاور به عنوان متغیرهای کمکی و به‌کارگیری یک استراتژی سبک‌وزن انطباق حوزه، هدف Strada-LLM این است که از مدل‌های LLM مبتنی بر prompt و مدل‌های سنتی شبکه عصبی گراف (GNN) پیشی بگیرد، به‌ویژه در سناریوهای شبکه‌ای کم‌داده یا نوظهور.

2. روش‌شناسی

2.1. معماری مدل

معماری Strada-LLM برای ادغام توانایی مدل‌سازی دنباله‌ای LLM‌ها با سوگیری‌های استقرایی ساختاری GNN‌ها طراحی شده است. ایده اصلی این است که یک شبکه ترافیکی به عنوان یک گراف $G = (V, E)$ در نظر گرفته شود، که در آن گره‌های $V$ نمایانگر حسگرها یا قطعات جاده هستند و یال‌های $E$ نمایانگر اتصال مکانی هستند. داده‌های تاریخی ترافیک (مانند سرعت، جریان) سری‌های زمانی چندمتغیره $X \in \mathbb{R}^{N \times T \times C}$ را برای $N$ گره در طول $T$ گام زمانی با $C$ کانال تشکیل می‌دهند.

این مدل داده‌ها را از طریق یک رمزگذار دو مسیره پردازش می‌کند: (1) یک رمزگذار زمانی (بر اساس هسته LLM مانند GPT یا LLaMA) وابستگی‌های بلندمدت و الگوهای تناوبی را درون سری زمانی هر گره ثبت می‌کند. (2) یک رمزگذار مکانی (یک GNN سبک‌وزن) بر روی ساختار گراف عمل کرده تا اطلاعات را از گره‌های همسایه جمع‌آوری کند و اثرات انتقال و بازخورد ذکر شده در مقدمه را ثبت کند. خروجی این رمزگذارها ادغام می‌شوند تا یک بازنمایی غنی‌شده فضایی-زمانی ایجاد شود.

2.2. ادغام متغیرهای کمکی مجاور

یک نوآوری کلیدی، استفاده از اطلاعات ترافیکی مجاور به عنوان متغیرهای کمکی است. به جای اتکای صرف به تاریخچه گره هدف، Strada-LLM پیش‌بینی‌های خود را بر اساس وضعیت‌های اخیر گره‌های همسایه توپولوژیکی شرطی می‌کند. به‌طور رسمی، برای یک گره هدف $i$ در زمان $t$، ورودی شامل $X_i^{(t-H:t)}$ و $\{X_j^{(t-H:t)} | j \in \mathcal{N}(i)\}$ است، که در آن $\mathcal{N}(i)$ مجموعه همسایگان و $H$ پنجره تاریخی است. این امر سیگنال‌های زمینه‌ای حیاتی در مورد تراکم یا الگوهای جریان در حال ظهور، قبل از آنکه به‌طور کامل در مکان هدف ظاهر شوند، فراهم می‌کند.

2.3. انطباق حوزه مبتنی بر توزیع

برای مقابله با تغییرات توزیع (مثلاً یک مدل آموزش‌دیده روی شهر A که روی شهر B اعمال می‌شود)، Strada-LLM یک استراتژی انطباق حوزه کارآمد از نظر پارامتر پیشنهاد می‌کند. به جای تنظیم دقیق تمام پارامترهای مدل، تنها زیرمجموعه کوچکی از پارامترها را شناسایی و به‌روزرسانی می‌کند که از تحلیل توزیع آماری (مانند میانگین، واریانس، خودهمبستگی) داده هدف جدید مشتق شده‌اند. این امر امکان انطباق سریع تحت محدودیت‌های کم‌نمونه را فراهم می‌کند و مدل را برای استقرار در شبکه‌های شهری متنوع بسیار عملی می‌سازد.

3. جزئیات فنی و فرمول‌بندی ریاضی

هدف پیش‌بینی، مدل‌سازی احتمال شرطی وضعیت‌های آینده ترافیک است: $$P(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ که در آن $F$ افق پیش‌بینی است. Strada-LLM این را به عنوان یک توزیع گاوسی چندمتغیره پارامتریزه می‌کند: $$\hat{X}^{(t+1:t+F)} \sim \mathcal{N}(\mu_{\theta}, \Sigma_{\theta})$$ پارامترهای مدل $\theta$ برای کمینه کردن لگاریتم درست‌نمایی منفی یاد گرفته می‌شوند: $$\mathcal{L} = -\log P_{\theta}(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ تجمع مکانی در مؤلفه GNN را می‌توان با یک طرح عبور پیام توصیف کرد. برای گره $i$ در لایه $l$: $$h_i^{(l)} = \text{UPDATE}\left(h_i^{(l-1)}, \text{AGGREGATE}\left(\{h_j^{(l-1)} | j \in \mathcal{N}(i)\}\right)\right)$$ که در آن $h_i$ جاسازی گره است. تابع AGGREGATE می‌تواند میانگین‌گیری یا مبتنی بر توجه باشد که قدرت تأثیر بین گره‌های متصل را ثبت می‌کند.

4. نتایج آزمایشی و تحلیل

4.1. مجموعه‌داده‌ها و مدل‌های پایه

ارزیابی‌ها بر روی مجموعه‌داده‌های استاندارد حمل‌ونقل فضایی-زمانی مانند PeMS و METR-LA انجام شد که حاوی داده‌های سرعت/جریان ترافیک از شبکه‌های حسگر هستند. مدل‌های پایه شامل موارد زیر بودند:

مدل‌های سری زمانی سنتی: ARIMA, VAR.
مدل‌های یادگیری عمیق: TCN, LSTM.
مدل‌های پیشرفته مبتنی بر GNN: DCRNN, STGCN, GraphWaveNet.
مدل‌های مبتنی بر LLM: نسخه‌های تنظیم‌شده با prompt از GPT-3, LLaMA.

4.2. معیارهای عملکرد

معیارهای اصلی ریشه میانگین مربعات خطا (RMSE) و میانگین خطای مطلق (MAE) برای پیش‌بینی‌های نقطه‌ای، و امتیاز احتمال رتبه‌ای پیوسته (CRPS) برای پیش‌بینی‌های احتمالاتی بودند.

بهبود عملکرد

17%

کاهش RMSE در پیش‌بینی بلندمدت در مقایسه با مدل‌های پیشرفته مبتنی بر LLM.

افزایش کارایی

16%

استفاده کارآمدتر از پارامترها در مقایسه با تنظیم دقیق کامل هسته‌های LLM.

استحکام

حداقل

افت عملکرد هنگام تعویض هسته‌های LLM (مثلاً از GPT به LLaMA).

4.3. یافته‌های کلیدی

دقت برتر پیش‌بینی: Strada-LLM به‌طور مداوم از تمام مدل‌های پایه بهتر عمل کرد، به‌ویژه در پیش‌بینی‌های افق بلند (مثلاً ۶۰ تا ۹۰ دقیقه جلوتر). بهبود ۱۷ درصدی RMSE نسبت به مدل‌های LLM مبتنی بر prompt، ارزش مدل‌سازی صریح ساختار گراف را تأیید می‌کند.

انطباق مؤثر کم‌نمونه: استراتژی انطباق مبتنی بر توزیع به Strada-LLM اجازه داد تا پس از مشاهده تنها چند روز نمونه از داده‌های یک شهر جدید، به بیش از ۹۰٪ از عملکرد اوج خود دست یابد که نشان‌دهنده کارایی داده قابل توجهی است.

تفسیرپذیری: با تحلیل وزن‌های توجه در رمزگذار زمانی LLM و وزن‌های یال یادگرفته‌شده در GNN، مدل می‌تواند بینشی در مورد اینکه کدام نقاط زمانی تاریخی و کدام گره‌های همسایه برای یک پیش‌بینی خاص تأثیرگذارتر بوده‌اند، ارائه دهد.

5. چارچوب تحلیلی: بینش اصلی و نقد

بینش اصلی

Strada-LLM فقط یک مدل هوش مصنوعی دیگر برای ترافیک نیست؛ بلکه یک شرط استراتژیک روی هوش ترکیبی است. نویسندگان به درستی تشخیص داده‌اند که تنظیم سریع خالص (prompt-tuning) مدل‌های LLM یکپارچه، برای داده‌های ساختاریافته و رابطه‌ای مانند شبکه‌های ترافیکی بن‌بست است. بینش اصلی آن‌ها این است که LLM‌ها باید موتور استدلال زمانی باشند، در حالی که GNN‌ها به عنوان مترجم ساختار مکانی عمل کنند. این رویکردی از نظر معماری مستحکم‌تر است نسبت به تلاش برای عبور دادن همه چیز از طریق promptهای متنی، مشابه نحوه‌ای که مدل‌های بینایی-زبان از رمزگذارهای جداگانه برای تصاویر و متن استفاده می‌کنند.

جریان منطقی

منطق قانع‌کننده است: ۱) ترافیک ساختار گراف ذاتی دارد → از یک GNN استفاده کن. ۲) سری‌های زمانی ترافیک وابستگی‌های بلندمدت پیچیده دارند → از یک LLM استفاده کن. ۳) ترکیب ساده آن‌ها از نظر پارامتر سنگین است و ممکن است حالت‌ها را هم‌تراز نکند → یک مکانیسم ادغام متمرکز با متغیرهای کمکی مجاور طراحی کن. ۴) استقرار در دنیای واقعی با تغییرات توزیع مواجه است → یک سازگارکننده سبک‌وزن و مبتنی بر آمار ابداع کن. این یک مثال کلاسیک از تجزیه مسئله در طراحی سیستم‌های یادگیری ماشین است.

نقاط قوت و ضعف

نقاط قوت: انطباق حوزه کارآمد از نظر پارامتر، ویژگی برجسته مقاله برای قابلیت اجرا در دنیای واقعی است. این مستقیماً مشکل "شروع سرد" در استقرار ITS در مقیاس شهری را هدف می‌گیرد. تمرکز بر پیش‌بینی احتمالاتی نیز قابل تحسین است، که فراتر از تخمین‌های نقطه‌ای به سمت کمی‌سازی عدم قطعیت حرکت می‌کند که برای تصمیم‌گیری آگاه از ریسک در حمل‌ونقل حیاتی است.

نقاط ضعف و سؤالات باز: فیل در اتاق هزینه محاسباتی است. در حالی که از تنظیم دقیق کامل کارآمدتر است، اجرای یک هسته LLM (حتی یک مدل ۷ میلیارد پارامتری) برای صدها حسگر در زمان واقعی، امری پیش‌پاافتاده نیست. مقاله فاقد یک تحلیل تأخیر دقیق برای پیش‌بینی آنلاین است. علاوه بر این، "گراف" ایستا (شبکه جاده) فرض شده است. این مدل گراف‌های پویایی را که می‌توانند رویدادهای موقتی مانند تصادفات یا تعطیلی جاده‌ها را نشان دهند، نادیده می‌گیرد؛ مرزی که در کارهایی مانند شبکه‌های عصبی گراف پویا (Pareja و همکاران، NeurIPS 2020) بررسی شده است. ارزیابی بر روی معیارهای استاندارد محکم است، اما یک آزمون استرس واقعی شامل ترکیب ناهمگون‌تری از شهرها (مثلاً شبکه شطرنجی اروپایی در مقابل گسترش آمریکایی) خواهد بود.

بینش‌های عملی

برای متخصصان: ابتدا این معماری را برای مدیریت در سطح کریدور آزمایشی اجرا کنید، نه در سطح شهر، تا هزینه‌های محاسباتی مدیریت شود. ماژول انطباق حوزه را می‌توان استخراج کرد و به‌طور بالقوه با سایر مدل‌های فضایی-زمانی استفاده کرد. برای محققان: بزرگترین فرصت، جایگزینی هسته LLM همه‌منظوره با یک مدل پایه خاص سری زمانی (مانند TimesFM از گوگل) است که می‌تواند به شدت کارایی را بهبود بخشد. مسیر دیگر، ادغام داده‌های خارجی (آب‌وهوا، رویدادها) نه صرفاً به عنوان متغیرهای کمکی، بلکه از طریق یک لایه ادغام چندوجهی است تا یک مدل واقعی "دوقلوی دیجیتال شهری" ایجاد شود.

6. چشم‌انداز کاربردی و جهت‌های آینده

کوتاه‌مدت (۱ تا ۳ سال): استقرار در مراکز مدیریت ترافیک برای پیش‌بینی و کاهش تراکم. Strada-LLM می‌تواند سیستم‌های کنترل چراغ راهنمایی پویا را که بر اساس جریان پیش‌بینی شده به‌طور پیش‌گیرانه زمان‌بندی‌ها را تنظیم می‌کنند، نیرودهی کند. قابلیت انطباق کم‌نمونه آن، آن را برای مدیریت رویدادهای خاص (بازی‌های ورزشی، کنسرت‌ها) مناسب می‌سازد که در آن داده‌های تاریخی کم است اما الگوها به سرعت ظهور می‌کنند.

میان‌مدت (۳ تا ۵ سال): ادغام با سیستم‌های مسیریابی خودروهای خودران (AV). ناوگان خودروهای خودران می‌توانند از پیش‌بینی‌های احتمالاتی Strada-LLM برای ارزیابی ریسک مسیرهای مختلف استفاده کنند و نه تنها برای زمان سفر فعلی، بلکه برای پایداری و قابلیت اطمینان پیش‌بینی شده بهینه‌سازی کنند. همچنین می‌تواند برنامه‌ریزی حمل‌ونقل بار و لجستیک را بهبود بخشد.

بلندمدت و مرزهای پژوهشی:

برنامه‌ریزی شهری مولد: استفاده از Strada-LLM به عنوان یک شبیه‌ساز برای ارزیابی تأثیر ترافیک تغییرات زیرساختی پیشنهادی (جاده‌های جدید، قوانین منطقه‌بندی).
ادغام چندوجهی: گسترش فراتر از ترافیک وسایل نقلیه برای مدل‌سازی تحرک یکپارچه، شامل جریان عابران پیاده، تقاضای اشتراک دوچرخه و اشغال‌شدگی حمل‌ونقل عمومی، که نیازمند بازنمایی‌های گراف ناهمگن است.
استنتاج علّی: حرکت از همبستگی به علت‌یت. آیا مدل می‌تواند به سؤالات "چه می‌شد اگر" پاسخ دهد، مانند تأثیر دقیق بستن یک خط خاص؟ این با حوزه در حال رشد یادگیری بازنمایی علّی هم‌راستا است.
مدل پایه برای تحرک: معماری Strada-LLM را می‌توان روی داده‌های ترافیکی جهانی مقیاس داد و از پیش آموزش داد تا یک مدل پایه برای تمام وظایف پیش‌بینی فضایی-زمانی در محیط‌های شهری ایجاد شود.

7. مراجع

Moghadas, S. M., Cornelis, B., Alahi, A., & Munteanu, A. (2025). Strada-LLM: Graph LLM for traffic prediction. Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '25).
Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).
Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. International Conference on Learning Representations (ICLR).
Li, Y., et al. (2018). Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. International Conference on Learning Representations (ICLR).
Pareja, A., et al. (2020). EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs. Proceedings of the AAAI Conference on Artificial Intelligence.
Wu, N., et al. (2023). TimesFM: A Foundation Model for Time Series Forecasting. Google Research. [Preprint].
OpenStreetMap contributors. (2024). Planet dump. Retrieved from https://www.openstreetmap.org.
California Department of Transportation (Caltrans). (2024). Performance Measurement System (PeMS). Retrieved from http://pems.dot.ca.gov.