Strada-LLM: Графо-усиленная большая языковая модель для пространственно-временного прогнозирования трафика

1. Введение

Прогнозирование трафика является краеугольным камнем интеллектуальных транспортных систем (ИТС), где точные предсказания напрямую влияют на операционную эффективность, безопасность и городское планирование. Основная сложность заключается в гетерогенности дорожных условий в разных локациях, что приводит к сильно различающимся распределениям данных, которые традиционным моделям сложно обобщать. Хотя большие языковые модели (БЯМ) показали потенциал в обучении с малым количеством примеров для таких динамичных сценариев, существующие решения на основе БЯМ часто полагаются на настройку промптов, что не позволяет полностью уловить сложные графовые отношения и пространственно-временные зависимости, присущие транспортным сетям. Это ограничение снижает как адаптивность модели, так и её интерпретируемость в реальных приложениях.

Strada-LLM представлена для преодоления этих пробелов. Это новая многомерная вероятностная прогнозирующая БЯМ, которая явно моделирует как временные, так и пространственные паттерны трафика. Интегрируя проксимальную информацию о трафике в качестве ковариат и используя стратегию лёгкой адаптации домена, Strada-LLM стремится превзойти существующие промпт-ориентированные БЯМ и традиционные модели на основе графовых нейронных сетей (ГНС), особенно в сценариях с малым объёмом данных или в новых сетях.

2. Методология

2.1. Архитектура модели

Архитектура Strada-LLM разработана для объединения способности БЯМ к моделированию последовательностей со структурными индуктивными смещениями ГНС. Основная идея заключается в представлении транспортной сети в виде графа $G = (V, E)$, где узлы $V$ представляют датчики или участки дорог, а рёбра $E$ — пространственную связность. Исторические данные о трафике (например, скорость, поток) формируют многомерные временные ряды $X \in \mathbb{R}^{N \times T \times C}$ для $N$ узлов за $T$ временных шагов с $C$ каналами.

Модель обрабатывает эти данные через двухпутевой энкодер: (1) Временной энкодер (на основе архитектуры БЯМ, такой как GPT или LLaMA) захватывает долгосрочные зависимости и периодические паттерны в пределах временного ряда каждого узла. (2) Пространственный энкодер (лёгкая ГНС) работает со структурой графа, агрегируя информацию от соседних узлов и захватывая эффекты переноса и обратной связи, упомянутые во введении. Выходы этих энкодеров объединяются для создания обогащённого пространственно-временного представления.

2.2. Интеграция проксимальных ковариат

Ключевым нововведением является использование проксимальной информации о трафике в качестве ковариат. Вместо того чтобы полагаться исключительно на историю целевого узла, Strada-LLM строит свои прогнозы с учётом недавних состояний топологически смежных узлов. Формально, для целевого узла $i$ в момент времени $t$, входные данные включают $X_i^{(t-H:t)}$ и $\{X_j^{(t-H:t)} | j \in \mathcal{N}(i)\}$, где $\mathcal{N}(i)$ — множество соседей, а $H$ — историческое окно. Это обеспечивает важные контекстуальные сигналы о зарождающихся заторах или паттернах потока до того, как они полностью проявятся в целевой локации.

2.3. Адаптация домена на основе распределения

Для решения проблемы сдвигов распределения (например, модель, обученная на данных города А, применяется к городу Б), Strada-LLM предлагает стратегию адаптации домена с эффективным использованием параметров. Вместо тонкой настройки всех параметров модели, она идентифицирует и обновляет лишь небольшое подмножество параметров, полученное путём анализа статистического распределения (например, среднего значения, дисперсии, автокорреляции) новых целевых данных. Это позволяет быстро адаптироваться в условиях малого количества примеров, делая модель высоко практичной для развёртывания в разнообразных городских сетях.

3. Технические детали и математическая формулировка

Цель прогнозирования — смоделировать условную вероятность будущих состояний трафика: $$P(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ где $F$ — горизонт прогноза. Strada-LLM параметризует это как многомерное нормальное распределение: $$\hat{X}^{(t+1:t+F)} \sim \mathcal{N}(\mu_{\theta}, \Sigma_{\theta})$$ Параметры модели $\theta$ обучаются для минимизации отрицательного логарифма правдоподобия: $$\mathcal{L} = -\log P_{\theta}(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ Пространственная агрегация в компоненте ГНС может быть описана схемой передачи сообщений. Для узла $i$ на слое $l$: $$h_i^{(l)} = \text{UPDATE}\left(h_i^{(l-1)}, \text{AGGREGATE}\left(\{h_j^{(l-1)} | j \in \mathcal{N}(i)\}\right)\right)$$ где $h_i$ — эмбеддинг узла. Функция AGGREGATE может быть, например, усреднением (mean pooling) или основанной на механизме внимания, захватывая силу влияния между связанными узлами.

4. Экспериментальные результаты и анализ

4.1. Наборы данных и базовые модели

Оценка проводилась на стандартных пространственно-временных транспортных наборах данных, таких как PeMS и METR-LA, которые содержат данные о скорости/потоке трафика с сетей датчиков. В качестве базовых моделей использовались:

Традиционные модели временных рядов: ARIMA, VAR.
Модели глубокого обучения: TCN, LSTM.
Передовые модели на основе ГНС: DCRNN, STGCN, GraphWaveNet.
Модели на основе БЯМ: Версии GPT-3 и LLaMA, настроенные с помощью промптов.

4.2. Метрики производительности

Основными метриками были Среднеквадратическая ошибка (RMSE) и Средняя абсолютная ошибка (MAE) для точечных прогнозов, а также Непрерывный ранговый вероятностный счёт (CRPS) для вероятностных прогнозов.

Улучшение производительности

17%

Снижение RMSE при долгосрочном прогнозировании по сравнению с передовыми моделями на основе БЯМ.

Эффективность использования параметров

16%

Более эффективное использование параметров по сравнению с полной тонкой настройкой архитектур БЯМ.

Робастность

Минимальная

Деградация производительности при смене архитектуры БЯМ (например, с GPT на LLaMA).

4.3. Ключевые выводы

Превосходная точность прогнозирования: Strada-LLM последовательно превосходила все базовые модели, особенно в долгосрочных прогнозах (например, на 60-90 минут вперёд). Улучшение RMSE на 17% по сравнению с промпт-ориентированными БЯМ подчёркивает ценность явного моделирования графовой структуры.

Эффективная адаптация с малым количеством примеров: Стратегия адаптации на основе распределения позволила Strada-LLM достичь >90% от пиковой производительности на данных нового города после просмотра всего нескольких дней выборок, демонстрируя замечательную эффективность использования данных.

Интерпретируемость: Анализируя веса внимания во временном энкодере БЯМ и изученные веса рёбер в ГНС, модель может дать представление о том, какие исторические моменты времени и какие соседние узлы были наиболее влиятельными для данного прогноза.

5. Аналитическая структура: Основная идея и критика

Основная идея

Strada-LLM — это не просто очередная ИИ-модель для трафика; это стратегическая ставка на гибридный интеллект. Авторы верно определяют, что чистая настройка промптов монолитных БЯМ является тупиковым путём для структурированных, реляционных данных, таких как транспортные сети. Их ключевая идея заключается в том, что БЯМ должны быть движком временных рассуждений, в то время как ГНС выступают в роли компилятора пространственной структуры. Это более архитектурно обоснованный подход, чем попытка пропустить всё через текстовые промпты, аналогично тому, как модели «визуальный язык» используют отдельные энкодеры для изображений и текста.

Логическая последовательность

Логика убедительна: 1) Трафик имеет присущую графовую структуру → используем ГНС. 2) Временные ряды трафика имеют сложные долгосрочные зависимости → используем БЯМ. 3) Наивное их объединение требует много параметров и может не согласовывать модальности → проектируем целенаправленный механизм слияния с проксимальными ковариатами. 4) Реальное развёртывание сталкивается со сдвигами распределения → изобретаем лёгкий, статистически управляемый адаптер. Это классический пример декомпозиции проблемы в проектировании ML-систем.

Сильные стороны и недостатки

Сильные стороны: Адаптация домена с эффективным использованием параметров — это «убийственная» особенность статьи для жизнеспособности в реальном мире. Она напрямую решает проблему «холодного старта» при развёртывании ИТС в масштабах города. Фокус на вероятностном прогнозировании также заслуживает похвалы, выходя за рамки точечных оценок к количественной оценке неопределённости, что критически важно для принятия решений с учётом рисков в транспорте.

Недостатки и открытые вопросы: Слон в комнате — это вычислительная стоимость. Хотя модель эффективнее полной тонкой настройки, запуск архитектуры БЯМ (даже модели с 7B параметров) для сотен датчиков в реальном времени — нетривиальная задача. В статье отсутствует строгий анализ задержек для онлайн-прогнозирования. Более того, «граф» предполагается статичным (дорожная сеть). Игнорируются динамические графы, которые могли бы представлять временные события, такие как аварии или перекрытия дорог, — область, исследуемая в работах типа Dynamic Graph Neural Networks (Pareja et al., NeurIPS 2020). Оценка на стандартных бенчмарках надёжна, но настоящее стресс-тестирование потребовало бы более гетерогенного набора городов (например, европейская сетка против американской расползающейся застройки).

Практические выводы

Для практиков: Сначала опробуйте эту архитектуру для управления на уровне коридора, а не всего города, чтобы контролировать вычислительные затраты. Модуль адаптации домена может быть извлечён и потенциально использован с другими пространственно-временными моделями. Для исследователей: Самая большая возможность — заменить универсальную архитектуру БЯМ на фундаментальную модель, специфичную для временных рядов (например, TimesFM от Google), что может радикально повысить эффективность. Другое направление — интеграция внешних данных (погода, события) не просто как ковариат, а через слой мультимодального слияния, создавая настоящую модель «цифрового двойника города».

6. Перспективы применения и направления будущих исследований

Краткосрочные (1-3 года): Развёртывание в центрах управления дорожным движением для прогнозирования и смягчения заторов. Strada-LLM может питать системы динамического управления светофорами, которые проактивно корректируют фазы на основе прогнозируемого потока. Её способность к адаптации с малым количеством примеров делает её подходящей для управления особыми событиями (спортивные игры, концерты), где исторических данных мало, но паттерны быстро проявляются.

Среднесрочные (3-5 лет): Интеграция с системами маршрутизации автономных транспортных средств (АТС). Парки АТС могли бы использовать вероятностные прогнозы Strada-LLM для оценки риска различных маршрутов, оптимизируя не только текущее время в пути, но и прогнозируемую стабильность и надёжность. Это также может улучшить планирование грузоперевозок и логистики.

Долгосрочные и исследовательские горизонты:

Генеративное городское планирование: Использование Strada-LLM в качестве симулятора для оценки транспортного воздействия предлагаемых изменений инфраструктуры (новые дороги, зонирование).
Мультимодальная интеграция: Расширение за пределы автомобильного трафика для моделирования интегрированной мобильности, включая потоки пешеходов, спрос на каршеринг и загрузку общественного транспорта, что потребует гетерогенных графовых представлений.
Причинно-следственный вывод: Переход от корреляции к причинности. Может ли модель отвечать на вопросы «что, если», например, о точном влиянии закрытия конкретной полосы? Это согласуется с растущей областью причинного обучения представлений.
Фундаментальная модель для мобильности: Архитектура Strada-LLM может быть масштабирована и предобучена на глобальных данных о трафике для создания фундаментальной модели для всех пространственно-временных прогнозных задач в городской среде.

7. Ссылки

Moghadas, S. M., Cornelis, B., Alahi, A., & Munteanu, A. (2025). Strada-LLM: Graph LLM for traffic prediction. Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '25).
Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).
Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. International Conference on Learning Representations (ICLR).
Li, Y., et al. (2018). Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. International Conference on Learning Representations (ICLR).
Pareja, A., et al. (2020). EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs. Proceedings of the AAAI Conference on Artificial Intelligence.
Wu, N., et al. (2023). TimesFM: A Foundation Model for Time Series Forecasting. Google Research. [Препринт].
OpenStreetMap contributors. (2024). Planet dump. Retrieved from https://www.openstreetmap.org.
California Department of Transportation (Caltrans). (2024). Performance Measurement System (PeMS). Retrieved from http://pems.dot.ca.gov.