1. مقدمه
پیشبینی ترافیک سنگ بنای سیستمهای حملونقل هوشمند (ITS) است، که پیشبینیهای دقیق آن بهطور مستقیم بر کارایی عملیاتی، ایمنی و برنامهریزی شهری تأثیر میگذارد. چالش اصلی در ناهمگونی شرایط ترافیکی در مکانهای مختلف نهفته است که منجر به توزیعهای داده بسیار متنوعی میشود که مدلهای سنتی در تعمیم دادن به آنها مشکل دارند. در حالی که مدلهای زبان بزرگ (LLM) در یادگیری کمنمونه برای چنین سناریوهای پویایی امیدوارکننده ظاهر شدهاند، راهحلهای مبتنی بر LLM موجود اغلب به تنظیم سریع (prompt-tuning) متکی هستند که در ثبت کامل روابط گراف و وابستگیهای فضایی-زمانی ذاتی در شبکههای ترافیکی ناتوان است. این محدودیت، هم انطباقپذیری و هم تفسیرپذیری مدل را در کاربردهای دنیای واقعی مختل میکند.
Strada-LLM برای پر کردن این شکافها معرفی شده است. این یک مدل زبان بزرگ پیشبینی احتمالاتی چندمتغیره نوآورانه است که بهطور صریح الگوهای ترافیکی زمانی و مکانی را مدلسازی میکند. با گنجاندن اطلاعات ترافیکی مجاور به عنوان متغیرهای کمکی و بهکارگیری یک استراتژی سبکوزن انطباق حوزه، هدف Strada-LLM این است که از مدلهای LLM مبتنی بر prompt و مدلهای سنتی شبکه عصبی گراف (GNN) پیشی بگیرد، بهویژه در سناریوهای شبکهای کمداده یا نوظهور.
2. روششناسی
2.1. معماری مدل
معماری Strada-LLM برای ادغام توانایی مدلسازی دنبالهای LLMها با سوگیریهای استقرایی ساختاری GNNها طراحی شده است. ایده اصلی این است که یک شبکه ترافیکی به عنوان یک گراف $G = (V, E)$ در نظر گرفته شود، که در آن گرههای $V$ نمایانگر حسگرها یا قطعات جاده هستند و یالهای $E$ نمایانگر اتصال مکانی هستند. دادههای تاریخی ترافیک (مانند سرعت، جریان) سریهای زمانی چندمتغیره $X \in \mathbb{R}^{N \times T \times C}$ را برای $N$ گره در طول $T$ گام زمانی با $C$ کانال تشکیل میدهند.
این مدل دادهها را از طریق یک رمزگذار دو مسیره پردازش میکند: (1) یک رمزگذار زمانی (بر اساس هسته LLM مانند GPT یا LLaMA) وابستگیهای بلندمدت و الگوهای تناوبی را درون سری زمانی هر گره ثبت میکند. (2) یک رمزگذار مکانی (یک GNN سبکوزن) بر روی ساختار گراف عمل کرده تا اطلاعات را از گرههای همسایه جمعآوری کند و اثرات انتقال و بازخورد ذکر شده در مقدمه را ثبت کند. خروجی این رمزگذارها ادغام میشوند تا یک بازنمایی غنیشده فضایی-زمانی ایجاد شود.
2.2. ادغام متغیرهای کمکی مجاور
یک نوآوری کلیدی، استفاده از اطلاعات ترافیکی مجاور به عنوان متغیرهای کمکی است. به جای اتکای صرف به تاریخچه گره هدف، Strada-LLM پیشبینیهای خود را بر اساس وضعیتهای اخیر گرههای همسایه توپولوژیکی شرطی میکند. بهطور رسمی، برای یک گره هدف $i$ در زمان $t$، ورودی شامل $X_i^{(t-H:t)}$ و $\{X_j^{(t-H:t)} | j \in \mathcal{N}(i)\}$ است، که در آن $\mathcal{N}(i)$ مجموعه همسایگان و $H$ پنجره تاریخی است. این امر سیگنالهای زمینهای حیاتی در مورد تراکم یا الگوهای جریان در حال ظهور، قبل از آنکه بهطور کامل در مکان هدف ظاهر شوند، فراهم میکند.
2.3. انطباق حوزه مبتنی بر توزیع
برای مقابله با تغییرات توزیع (مثلاً یک مدل آموزشدیده روی شهر A که روی شهر B اعمال میشود)، Strada-LLM یک استراتژی انطباق حوزه کارآمد از نظر پارامتر پیشنهاد میکند. به جای تنظیم دقیق تمام پارامترهای مدل، تنها زیرمجموعه کوچکی از پارامترها را شناسایی و بهروزرسانی میکند که از تحلیل توزیع آماری (مانند میانگین، واریانس، خودهمبستگی) داده هدف جدید مشتق شدهاند. این امر امکان انطباق سریع تحت محدودیتهای کمنمونه را فراهم میکند و مدل را برای استقرار در شبکههای شهری متنوع بسیار عملی میسازد.
3. جزئیات فنی و فرمولبندی ریاضی
هدف پیشبینی، مدلسازی احتمال شرطی وضعیتهای آینده ترافیک است: $$P(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ که در آن $F$ افق پیشبینی است. Strada-LLM این را به عنوان یک توزیع گاوسی چندمتغیره پارامتریزه میکند: $$\hat{X}^{(t+1:t+F)} \sim \mathcal{N}(\mu_{\theta}, \Sigma_{\theta})$$ پارامترهای مدل $\theta$ برای کمینه کردن لگاریتم درستنمایی منفی یاد گرفته میشوند: $$\mathcal{L} = -\log P_{\theta}(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ تجمع مکانی در مؤلفه GNN را میتوان با یک طرح عبور پیام توصیف کرد. برای گره $i$ در لایه $l$: $$h_i^{(l)} = \text{UPDATE}\left(h_i^{(l-1)}, \text{AGGREGATE}\left(\{h_j^{(l-1)} | j \in \mathcal{N}(i)\}\right)\right)$$ که در آن $h_i$ جاسازی گره است. تابع AGGREGATE میتواند میانگینگیری یا مبتنی بر توجه باشد که قدرت تأثیر بین گرههای متصل را ثبت میکند.
4. نتایج آزمایشی و تحلیل
4.1. مجموعهدادهها و مدلهای پایه
ارزیابیها بر روی مجموعهدادههای استاندارد حملونقل فضایی-زمانی مانند PeMS و METR-LA انجام شد که حاوی دادههای سرعت/جریان ترافیک از شبکههای حسگر هستند. مدلهای پایه شامل موارد زیر بودند:
- مدلهای سری زمانی سنتی: ARIMA, VAR.
- مدلهای یادگیری عمیق: TCN, LSTM.
- مدلهای پیشرفته مبتنی بر GNN: DCRNN, STGCN, GraphWaveNet.
- مدلهای مبتنی بر LLM: نسخههای تنظیمشده با prompt از GPT-3, LLaMA.
4.2. معیارهای عملکرد
معیارهای اصلی ریشه میانگین مربعات خطا (RMSE) و میانگین خطای مطلق (MAE) برای پیشبینیهای نقطهای، و امتیاز احتمال رتبهای پیوسته (CRPS) برای پیشبینیهای احتمالاتی بودند.
بهبود عملکرد
17%
کاهش RMSE در پیشبینی بلندمدت در مقایسه با مدلهای پیشرفته مبتنی بر LLM.
افزایش کارایی
16%
استفاده کارآمدتر از پارامترها در مقایسه با تنظیم دقیق کامل هستههای LLM.
استحکام
حداقل
افت عملکرد هنگام تعویض هستههای LLM (مثلاً از GPT به LLaMA).
4.3. یافتههای کلیدی
دقت برتر پیشبینی: Strada-LLM بهطور مداوم از تمام مدلهای پایه بهتر عمل کرد، بهویژه در پیشبینیهای افق بلند (مثلاً ۶۰ تا ۹۰ دقیقه جلوتر). بهبود ۱۷ درصدی RMSE نسبت به مدلهای LLM مبتنی بر prompt، ارزش مدلسازی صریح ساختار گراف را تأیید میکند.
انطباق مؤثر کمنمونه: استراتژی انطباق مبتنی بر توزیع به Strada-LLM اجازه داد تا پس از مشاهده تنها چند روز نمونه از دادههای یک شهر جدید، به بیش از ۹۰٪ از عملکرد اوج خود دست یابد که نشاندهنده کارایی داده قابل توجهی است.
تفسیرپذیری: با تحلیل وزنهای توجه در رمزگذار زمانی LLM و وزنهای یال یادگرفتهشده در GNN، مدل میتواند بینشی در مورد اینکه کدام نقاط زمانی تاریخی و کدام گرههای همسایه برای یک پیشبینی خاص تأثیرگذارتر بودهاند، ارائه دهد.
5. چارچوب تحلیلی: بینش اصلی و نقد
بینش اصلی
Strada-LLM فقط یک مدل هوش مصنوعی دیگر برای ترافیک نیست؛ بلکه یک شرط استراتژیک روی هوش ترکیبی است. نویسندگان به درستی تشخیص دادهاند که تنظیم سریع خالص (prompt-tuning) مدلهای LLM یکپارچه، برای دادههای ساختاریافته و رابطهای مانند شبکههای ترافیکی بنبست است. بینش اصلی آنها این است که LLMها باید موتور استدلال زمانی باشند، در حالی که GNNها به عنوان مترجم ساختار مکانی عمل کنند. این رویکردی از نظر معماری مستحکمتر است نسبت به تلاش برای عبور دادن همه چیز از طریق promptهای متنی، مشابه نحوهای که مدلهای بینایی-زبان از رمزگذارهای جداگانه برای تصاویر و متن استفاده میکنند.
جریان منطقی
منطق قانعکننده است: ۱) ترافیک ساختار گراف ذاتی دارد → از یک GNN استفاده کن. ۲) سریهای زمانی ترافیک وابستگیهای بلندمدت پیچیده دارند → از یک LLM استفاده کن. ۳) ترکیب ساده آنها از نظر پارامتر سنگین است و ممکن است حالتها را همتراز نکند → یک مکانیسم ادغام متمرکز با متغیرهای کمکی مجاور طراحی کن. ۴) استقرار در دنیای واقعی با تغییرات توزیع مواجه است → یک سازگارکننده سبکوزن و مبتنی بر آمار ابداع کن. این یک مثال کلاسیک از تجزیه مسئله در طراحی سیستمهای یادگیری ماشین است.
نقاط قوت و ضعف
نقاط قوت: انطباق حوزه کارآمد از نظر پارامتر، ویژگی برجسته مقاله برای قابلیت اجرا در دنیای واقعی است. این مستقیماً مشکل "شروع سرد" در استقرار ITS در مقیاس شهری را هدف میگیرد. تمرکز بر پیشبینی احتمالاتی نیز قابل تحسین است، که فراتر از تخمینهای نقطهای به سمت کمیسازی عدم قطعیت حرکت میکند که برای تصمیمگیری آگاه از ریسک در حملونقل حیاتی است.
نقاط ضعف و سؤالات باز: فیل در اتاق هزینه محاسباتی است. در حالی که از تنظیم دقیق کامل کارآمدتر است، اجرای یک هسته LLM (حتی یک مدل ۷ میلیارد پارامتری) برای صدها حسگر در زمان واقعی، امری پیشپاافتاده نیست. مقاله فاقد یک تحلیل تأخیر دقیق برای پیشبینی آنلاین است. علاوه بر این، "گراف" ایستا (شبکه جاده) فرض شده است. این مدل گرافهای پویایی را که میتوانند رویدادهای موقتی مانند تصادفات یا تعطیلی جادهها را نشان دهند، نادیده میگیرد؛ مرزی که در کارهایی مانند شبکههای عصبی گراف پویا (Pareja و همکاران، NeurIPS 2020) بررسی شده است. ارزیابی بر روی معیارهای استاندارد محکم است، اما یک آزمون استرس واقعی شامل ترکیب ناهمگونتری از شهرها (مثلاً شبکه شطرنجی اروپایی در مقابل گسترش آمریکایی) خواهد بود.
بینشهای عملی
برای متخصصان: ابتدا این معماری را برای مدیریت در سطح کریدور آزمایشی اجرا کنید، نه در سطح شهر، تا هزینههای محاسباتی مدیریت شود. ماژول انطباق حوزه را میتوان استخراج کرد و بهطور بالقوه با سایر مدلهای فضایی-زمانی استفاده کرد. برای محققان: بزرگترین فرصت، جایگزینی هسته LLM همهمنظوره با یک مدل پایه خاص سری زمانی (مانند TimesFM از گوگل) است که میتواند به شدت کارایی را بهبود بخشد. مسیر دیگر، ادغام دادههای خارجی (آبوهوا، رویدادها) نه صرفاً به عنوان متغیرهای کمکی، بلکه از طریق یک لایه ادغام چندوجهی است تا یک مدل واقعی "دوقلوی دیجیتال شهری" ایجاد شود.
6. چشمانداز کاربردی و جهتهای آینده
کوتاهمدت (۱ تا ۳ سال): استقرار در مراکز مدیریت ترافیک برای پیشبینی و کاهش تراکم. Strada-LLM میتواند سیستمهای کنترل چراغ راهنمایی پویا را که بر اساس جریان پیشبینی شده بهطور پیشگیرانه زمانبندیها را تنظیم میکنند، نیرودهی کند. قابلیت انطباق کمنمونه آن، آن را برای مدیریت رویدادهای خاص (بازیهای ورزشی، کنسرتها) مناسب میسازد که در آن دادههای تاریخی کم است اما الگوها به سرعت ظهور میکنند.
میانمدت (۳ تا ۵ سال): ادغام با سیستمهای مسیریابی خودروهای خودران (AV). ناوگان خودروهای خودران میتوانند از پیشبینیهای احتمالاتی Strada-LLM برای ارزیابی ریسک مسیرهای مختلف استفاده کنند و نه تنها برای زمان سفر فعلی، بلکه برای پایداری و قابلیت اطمینان پیشبینی شده بهینهسازی کنند. همچنین میتواند برنامهریزی حملونقل بار و لجستیک را بهبود بخشد.
بلندمدت و مرزهای پژوهشی:
- برنامهریزی شهری مولد: استفاده از Strada-LLM به عنوان یک شبیهساز برای ارزیابی تأثیر ترافیک تغییرات زیرساختی پیشنهادی (جادههای جدید، قوانین منطقهبندی).
- ادغام چندوجهی: گسترش فراتر از ترافیک وسایل نقلیه برای مدلسازی تحرک یکپارچه، شامل جریان عابران پیاده، تقاضای اشتراک دوچرخه و اشغالشدگی حملونقل عمومی، که نیازمند بازنماییهای گراف ناهمگن است.
- استنتاج علّی: حرکت از همبستگی به علتیت. آیا مدل میتواند به سؤالات "چه میشد اگر" پاسخ دهد، مانند تأثیر دقیق بستن یک خط خاص؟ این با حوزه در حال رشد یادگیری بازنمایی علّی همراستا است.
- مدل پایه برای تحرک: معماری Strada-LLM را میتوان روی دادههای ترافیکی جهانی مقیاس داد و از پیش آموزش داد تا یک مدل پایه برای تمام وظایف پیشبینی فضایی-زمانی در محیطهای شهری ایجاد شود.
7. مراجع
- Moghadas, S. M., Cornelis, B., Alahi, A., & Munteanu, A. (2025). Strada-LLM: Graph LLM for traffic prediction. Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '25).
- Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).
- Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. International Conference on Learning Representations (ICLR).
- Li, Y., et al. (2018). Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. International Conference on Learning Representations (ICLR).
- Pareja, A., et al. (2020). EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs. Proceedings of the AAAI Conference on Artificial Intelligence.
- Wu, N., et al. (2023). TimesFM: A Foundation Model for Time Series Forecasting. Google Research. [Preprint].
- OpenStreetMap contributors. (2024). Planet dump. Retrieved from https://www.openstreetmap.org.
- California Department of Transportation (Caltrans). (2024). Performance Measurement System (PeMS). Retrieved from http://pems.dot.ca.gov.