Strada-LLM: نموذج لغوي كبير معزز بالرسوم البيانية للتنبؤ بحركة المرور الزمانية المكانية

1. المقدمة

يُعد التنبؤ بحركة المرور حجر الزاوية في أنظمة النقل الذكية، حيث تؤثر التوقعات الدقيقة بشكل مباشر على الكفاءة التشغيلية والسلامة والتخطيط الحضري. يكمن التحدي الأساسي في التغاير في ظروف حركة المرور عبر المواقع المختلفة، مما يؤدي إلى توزيعات بيانات شديدة التنوع يصعب على النماذج التقليدية التعميم عبرها. بينما أظهرت النماذج اللغوية الكبيرة إمكانات في التعلم القليل العينات لمثل هذه السيناريوهات الديناميكية، غالبًا ما تعتمد الحلول القائمة على النماذج اللغوية الكبيرة الحالية على ضبط المطالبات، والذي يعاني من صعوبة في التقاط العلاقات البيانية المعقدة والتبعيات الزمانية المكانية الكامنة في شبكات المرور بشكل كامل. يعيق هذا القيد كلًا من قابلية تكيف النموذج وقابليته للتفسير في التطبيقات الواقعية.

يُقدم Strada-LLM لسد هذه الفجوات. إنه نموذج لغوي كبير جديد للتنبؤ الاحتمالي متعدد المتغيرات يقوم بنمذجة أنماط حركة المرور الزمانية والمكانية بشكل صريح. من خلال دمج معلومات حركة المرور القريبة كمتغيرات مصاحبة واستخدام استراتيجية تكيف خفيفة الوزن للمجال، يهدف Strada-LLM إلى التفوق على نماذج النماذج اللغوية الكبيرة القائمة على المطالبات والنماذج التقليدية للشبكات العصبية البيانية، خاصة في سيناريوهات الشبكات الجديدة أو قليلة البيانات.

2. المنهجية

2.1. بنية النموذج

تم تصميم بنية Strada-LLM لدمج براعة النماذج اللغوية الكبيرة في نمذجة التسلسل مع التحيزات الاستقرائية الهيكلية للشبكات العصبية البيانية. الفكرة الأساسية هي معاملة شبكة المرور كرسم بياني $G = (V, E)$، حيث تمثل العقد $V$ أجهزة استشعار أو مقاطع طرق، وتمثل الحواف $E$ الاتصال المكاني. تشكل بيانات حركة المرور التاريخية (مثل السرعة، التدفق) سلاسل زمنية متعددة المتغيرات $X \in \mathbb{R}^{N \times T \times C}$ لـ $N$ عقدة على مدى $T$ خطوة زمنية مع $C$ قناة.

يعالج النموذج هذه البيانات من خلال مُشفر مزدوج المسار: (1) مُشفر زماني (يعتمد على هيكل نموذج لغوي كبير مثل GPT أو LLaMA) يلتقط التبعيات بعيدة المدى والأنماط الدورية داخل السلسلة الزمنية لكل عقدة. (2) مُشفر مكاني (شبكة عصبية بيانية خفيفة الوزن) يعمل على هيكل الرسم البياني لتجميع المعلومات من العقد المجاورة، لالتقاط تأثيرات النقل والتغذية الراجعة المذكورة في المقدمة. يتم دمج مخرجات هذه المشفرات لإنشاء تمثيل غني زمانيًا ومكانيًا.

2.2. دمج المتغيرات المصاحبة القريبة

الابتكار الرئيسي هو استخدام معلومات حركة المرور القريبة كمتغيرات مصاحبة. بدلاً من الاعتماد فقط على تاريخ العقدة المستهدفة، يشرط Strada-LLM تنبؤاته على الحالات الحديثة للعقد المتجاورة طوبولوجيًا. بشكل رسمي، بالنسبة لعقدة مستهدفة $i$ في الوقت $t$، يتضمن الإدخال $X_i^{(t-H:t)}$ و $\{X_j^{(t-H:t)} | j \in \mathcal{N}(i)\}$، حيث $\mathcal{N}(i)$ هي مجموعة الجيران و $H$ هي النافذة التاريخية. يوفر هذا إشارات سياقية حاسمة حول أنماط الازدحام أو التدفق الناشئة قبل أن تتجلى بالكامل في الموقع المستهدف.

2.3. التكيف مع المجال المستمد من التوزيع

لمعالجة تحولات التوزيع (مثل نموذج تم تدريبه على مدينة أ يُطبق على مدينة ب)، يقترح Strada-LLM استراتيجية تكيف خفيفة الوزن للمجال من حيث المعاملات. بدلاً من ضبط جميع معاملات النموذج، فإنه يحدد ويحدث مجموعة فرعية صغيرة فقط من المعاملات المشتقة من خلال تحليل التوزيع الإحصائي (مثل المتوسط، التباين، الارتباط الذاتي) للبيانات المستهدفة الجديدة. هذا يسمح بالتكيف السريع تحت قيود العينات القليلة، مما يجعل النموذج عمليًا للغاية للنشر عبر شبكات حضرية متنوعة.

3. التفاصيل التقنية والصياغة الرياضية

الهدف من التنبؤ هو نمذجة الاحتمال الشرطي للحالات المستقبلية لحركة المرور: $$P(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ حيث $F$ هو أفق التنبؤ. يقوم Strada-LLM بتحديد معاملات هذا كتوزيع غاوسي متعدد المتغيرات: $$\hat{X}^{(t+1:t+F)} \sim \mathcal{N}(\mu_{\theta}, \Sigma_{\theta})$$ يتم تعلم معاملات النموذج $\theta$ لتقليل الاحتمال اللوغاريتمي السالب: $$\mathcal{L} = -\log P_{\theta}(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ يمكن وصف التجميع المكاني في مكون الشبكة العصبية البيانية من خلال مخطط تمرير الرسائل. بالنسبة للعقدة $i$ في الطبقة $l$: $$h_i^{(l)} = \text{UPDATE}\left(h_i^{(l-1)}, \text{AGGREGATE}\left(\{h_j^{(l-1)} | j \in \mathcal{N}(i)\}\right)\right)$$ حيث $h_i$ هو تضمين العقدة. يمكن أن تكون دالة AGGREGATE تجميعًا متوسطًا أو قائمة على الانتباه، تلتقط قوة التأثير بين العقد المتصلة.

4. النتائج التجريبية والتحليل

4.1. مجموعات البيانات والنماذج الأساسية للمقارنة

تم إجراء التقييمات على مجموعات البيانات القياسية للنقل الزماني المكاني مثل PeMS و METR-LA، والتي تحتوي على بيانات سرعة/تدفق المرور من شبكات الاستشعار. تضمنت النماذج الأساسية للمقارنة:

نماذج السلاسل الزمنية التقليدية: ARIMA، VAR.
نماذج التعلم العميق: TCN، LSTM.
أحدث النماذج القائمة على الشبكات العصبية البيانية: DCRNN، STGCN، GraphWaveNet.
نماذج قائمة على النماذج اللغوية الكبيرة: إصابات مضبوطة بالمطالبات من GPT-3، LLaMA.

4.2. مقاييس الأداء

كانت المقاييس الأساسية هي جذر متوسط مربع الخطأ و متوسط الخطأ المطلق للتنبؤات النقطية، و درجة الاحتمال المرتب المستمر للتنبؤات الاحتمالية.

تحسين الأداء

17%

انخفاض في جذر متوسط مربع الخطأ في التنبؤ طويل المدى مقارنة بأحدث النماذج المدعومة بالنماذج اللغوية الكبيرة.

كفاءة المعاملات

16%

استخدام أكثر كفاءة للمعاملات مقارنة بالضبط الكامل لهياكل النماذج اللغوية الكبيرة.

المتانة

حد أدنى

تدهور في الأداء عند تبديل هياكل النماذج اللغوية الكبيرة (مثل من GPT إلى LLaMA).

4.3. النتائج الرئيسية

دقة تنبؤية فائقة: تفوق Strada-LLM باستمرار على جميع النماذج الأساسية للمقارنة، خاصة في التنبؤات بعيدة المدى (مثل 60-90 دقيقة مقدمًا). يشير تحسين جذر متوسط مربع الخطأ بنسبة 17% مقارنة بنماذج النماذج اللغوية الكبيرة القائمة على المطالبات إلى قيمة نمذجة هيكل الرسم البياني بشكل صريح.

تكيف فعال مع العينات القليلة: سمحت استراتيجية التكيف المستمدة من التوزيع لـ Strada-LLM بتحقيق أكثر من 90% من أدائه الذروي على بيانات مدينة جديدة بعد رؤية بضعة أيام فقط من العينات، مما يظهر كفاءة بيانات ملحوظة.

القدرة على التفسير: من خلال تحليل أوزان الانتباه في المشفر الزماني للنموذج اللغوي الكبير وأوزان الحواف المتعلمة في الشبكة العصبية البيانية، يمكن للنموذج تقديم رؤى حول النقاط الزمنية التاريخية والعقد المجاورة الأكثر تأثيرًا على تنبؤ معين.

5. إطار التحليل: الرؤية الأساسية والنقد

الرؤية الأساسية

Strada-LLM ليس مجرد نموذج ذكاء اصطناعي آخر لحركة المرور؛ بل هو رهان استراتيجي على الذكاء الهجين. يحدد المؤلفون بشكل صحيح أن الضبط النقي للمطالبات للنماذج اللغوية الكبيرة الضخمة هو طريق مسدود للبيانات العلائقية المنظمة مثل شبكات المرور. رؤيتهم الأساسية هي أن النماذج اللغوية الكبيرة يجب أن تكون محرك الاستدلال الزماني، بينما تعمل الشبكات العصبية البيانية كـ مترجم الهيكل المكاني. هذا نهج أكثر سلامة من الناحية المعمارية من محاولة فرض كل شيء من خلال مطالبات نصية، على غرار كيفية استخدام نماذج الرؤية-اللغة لمشفرات منفصلة للصور والنص.

التدفق المنطقي

المنطق مقنع: 1) لحركة المرور هيكل بياني كامن → استخدم شبكة عصبية بيانية. 2) للسلاسل الزمنية لحركة المرور تبعيات معقدة طويلة المدى → استخدم نموذجًا لغويًا كبيرًا. 3) الجمع بينهما بسذاجة يتطلب معاملات كثيرة وقد لا ينسق الوسائط → صمم آلية اندماج مركزة مع متغيرات مصاحبة قريبة. 4) يواجه النشر في العالم الحقيقي تحولات في التوزيع → اختر محولًا خفيف الوزن يعتمد على الإحصائيات. هذا مثال نموذجي على تحليل المشكلة في تصميم أنظمة التعلم الآلي.

نقاط القوة والضعف

نقاط القوة: التكيف مع المجال الفعال من حيث المعاملات هو الميزة القاتلة للورقة البحثية من أجل الجدوى العملية. إنه يتناول مباشرة مشكلة "البداية الباردة" في نشر أنظمة النقل الذكية على مستوى المدينة. التركيز على التنبؤ الاحتمالي جدير بالثناء أيضًا، حيث يتجاوز التقديرات النقطية إلى قياس عدم اليقين، وهو أمر بالغ الأهمية لاتخاذ القرارات الواعية بالمخاطر في النقل.

نقاط الضعف والأسئلة المفتوحة: الفيل في الغرفة هو التكلفة الحسابية. بينما هو أكثر كفاءة من الضبط الكامل، فإن تشغيل هيكل نموذج لغوي كبير (حتى نموذج بمعاملات 7 مليار) لمئات أجهزة الاستشعار في الوقت الفعلي ليس بالأمر الهين. تفتقر الورقة البحثية إلى تحليل دقيق للكمون للتنبؤ عبر الإنترنت. علاوة على ذلك، يُفترض أن "الرسم البياني" ثابت (شبكة الطرق). إنه يتجاهل الرسوم البيانية الديناميكية التي يمكن أن تمثل أحداثًا مؤقتة مثل الحوادث أو إغلاق الطرق، وهو مجال استكشفته أعمال مثل الشبكات العصبية البيانية الديناميكية (Pareja et al., NeurIPS 2020). التقييم على المعايير القياسية قوي، لكن اختبار الإجهاد الحقيقي سيتضمن مزيجًا أكثر تنوعًا من المدن (مثل الشبكة الأوروبية مقابل التمدد الأمريكي).

رؤى قابلة للتنفيذ

للممارسين: جرب هذه البنية أولاً لإدارة مستوى الممر، وليس على مستوى المدينة بأكملها، لإدارة تكاليف الحوسبة. يمكن استخراج وحدة التكيف مع المجال واستخدامها محتملًا مع نماذج زمانية مكانية أخرى. للباحثين: أكبر فرصة هي استبدال هيكل النموذج اللغوي الكبير العام بـ نموذج أساسي مخصص للسلاسل الزمنية (مثل TimesFM من جوجل)، مما قد يحسن الكفاءة بشكل كبير. مسار آخر هو دمج البيانات الخارجية (الطقس، الأحداث) ليس كمتغيرات مصاحبة فحسب، ولكن من خلال طبقة اندماج متعددة الوسائط، لإنشاء نموذج حقيقي "للتوأم الرقمي الحضري".

6. آفاق التطبيق والاتجاهات المستقبلية

قصير المدى (1-3 سنوات): النشر في مراكز إدارة حركة المرور من أجل التنبؤ بالازدحام والتخفيف منه. يمكن لـ Strada-LLM تشغيل أنظمة التحكم الديناميكية في إشارات المرور التي تضبط التوقيتات بشكل استباقي بناءً على التدفق المتوقع. يجعل تكيفه مع العينات القليلة منه مناسبًا لـ إدارة الأحداث الخاصة (الألعاب الرياضية، الحفلات الموسيقية) حيث تكون البيانات التاريخية شحيحة ولكن الأنماط تظهر بسرعة.

متوسط المدى (3-5 سنوات): التكامل مع أنظمة توجيه المركبات الذاتية القيادة. يمكن لأساطيل المركبات الذاتية القيادة استخدام التنبؤات الاحتمالية لـ Strada-LLM لتقييم مخاطر الطرق المختلفة، وتحسين ليس فقط لوقت السفر الحالي ولكن للاستقرار والموثوقية المتوقعة. يمكنه أيضًا تعزيز تخطيط الشحن والخدمات اللوجستية.

طويل المدى وحدود البحث:

التخطيط الحضري التوليدي: استخدام Strada-LLM كمحاكي لتقييم تأثير حركة المرور للتغييرات المقترحة في البنية التحتية (طرق جديدة، قوانين تقسيم المناطق).
التكامل متعدد الوسائط: التوسع إلى ما بعد حركة مرور المركبات لنمذجة التنقل المتكامل، بما في ذلك تدفقات المشاة، طلب مشاركة الدراجات، وإشغال النقل العام، مما يتطلب تمثيلات بيانية غير متجانسة.
الاستدلال السببي: الانتقال من الارتباط إلى السببية. هل يمكن للنموذج الإجابة على أسئلة "ماذا لو"، مثل التأثير الدقيق لإغلاق مسار معين؟ يتوافق هذا مع المجال المتنامي لتعلم التمثيل السببي.
نموذج أساسي للتنقل: يمكن توسيع بنية Strada-LLM والتدريب المسبق عليها على بيانات حركة المرور العالمية لإنشاء نموذج أساسي لجميع مهام التنبؤ الزمانية المكانية في البيئات الحضرية.

7. المراجع

Moghadas, S. M., Cornelis, B., Alahi, A., & Munteanu, A. (2025). Strada-LLM: Graph LLM for traffic prediction. Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '25).
Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).
Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. International Conference on Learning Representations (ICLR).
Li, Y., et al. (2018). Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. International Conference on Learning Representations (ICLR).
Pareja, A., et al. (2020). EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs. Proceedings of the AAAI Conference on Artificial Intelligence.
Wu, N., et al. (2023). TimesFM: A Foundation Model for Time Series Forecasting. Google Research. [Preprint].
OpenStreetMap contributors. (2024). Planet dump. Retrieved from https://www.openstreetmap.org.
California Department of Transportation (Caltrans). (2024). Performance Measurement System (PeMS). Retrieved from http://pems.dot.ca.gov.