1. Введение
Прогнозирование трафика является краеугольным камнем интеллектуальных транспортных систем (ИТС), где точные предсказания напрямую влияют на операционную эффективность, безопасность и городское планирование. Основная сложность заключается в гетерогенности дорожных условий в разных локациях, что приводит к сильно различающимся распределениям данных, которые традиционным моделям сложно обобщать. Хотя большие языковые модели (БЯМ) показали потенциал в обучении с малым количеством примеров для таких динамичных сценариев, существующие решения на основе БЯМ часто полагаются на настройку промптов, что не позволяет полностью уловить сложные графовые отношения и пространственно-временные зависимости, присущие транспортным сетям. Это ограничение снижает как адаптивность модели, так и её интерпретируемость в реальных приложениях.
Strada-LLM представлена для преодоления этих пробелов. Это новая многомерная вероятностная прогнозирующая БЯМ, которая явно моделирует как временные, так и пространственные паттерны трафика. Интегрируя проксимальную информацию о трафике в качестве ковариат и используя стратегию лёгкой адаптации домена, Strada-LLM стремится превзойти существующие промпт-ориентированные БЯМ и традиционные модели на основе графовых нейронных сетей (ГНС), особенно в сценариях с малым объёмом данных или в новых сетях.
2. Методология
2.1. Архитектура модели
Архитектура Strada-LLM разработана для объединения способности БЯМ к моделированию последовательностей со структурными индуктивными смещениями ГНС. Основная идея заключается в представлении транспортной сети в виде графа $G = (V, E)$, где узлы $V$ представляют датчики или участки дорог, а рёбра $E$ — пространственную связность. Исторические данные о трафике (например, скорость, поток) формируют многомерные временные ряды $X \in \mathbb{R}^{N \times T \times C}$ для $N$ узлов за $T$ временных шагов с $C$ каналами.
Модель обрабатывает эти данные через двухпутевой энкодер: (1) Временной энкодер (на основе архитектуры БЯМ, такой как GPT или LLaMA) захватывает долгосрочные зависимости и периодические паттерны в пределах временного ряда каждого узла. (2) Пространственный энкодер (лёгкая ГНС) работает со структурой графа, агрегируя информацию от соседних узлов и захватывая эффекты переноса и обратной связи, упомянутые во введении. Выходы этих энкодеров объединяются для создания обогащённого пространственно-временного представления.
2.2. Интеграция проксимальных ковариат
Ключевым нововведением является использование проксимальной информации о трафике в качестве ковариат. Вместо того чтобы полагаться исключительно на историю целевого узла, Strada-LLM строит свои прогнозы с учётом недавних состояний топологически смежных узлов. Формально, для целевого узла $i$ в момент времени $t$, входные данные включают $X_i^{(t-H:t)}$ и $\{X_j^{(t-H:t)} | j \in \mathcal{N}(i)\}$, где $\mathcal{N}(i)$ — множество соседей, а $H$ — историческое окно. Это обеспечивает важные контекстуальные сигналы о зарождающихся заторах или паттернах потока до того, как они полностью проявятся в целевой локации.
2.3. Адаптация домена на основе распределения
Для решения проблемы сдвигов распределения (например, модель, обученная на данных города А, применяется к городу Б), Strada-LLM предлагает стратегию адаптации домена с эффективным использованием параметров. Вместо тонкой настройки всех параметров модели, она идентифицирует и обновляет лишь небольшое подмножество параметров, полученное путём анализа статистического распределения (например, среднего значения, дисперсии, автокорреляции) новых целевых данных. Это позволяет быстро адаптироваться в условиях малого количества примеров, делая модель высоко практичной для развёртывания в разнообразных городских сетях.
3. Технические детали и математическая формулировка
Цель прогнозирования — смоделировать условную вероятность будущих состояний трафика: $$P(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ где $F$ — горизонт прогноза. Strada-LLM параметризует это как многомерное нормальное распределение: $$\hat{X}^{(t+1:t+F)} \sim \mathcal{N}(\mu_{\theta}, \Sigma_{\theta})$$ Параметры модели $\theta$ обучаются для минимизации отрицательного логарифма правдоподобия: $$\mathcal{L} = -\log P_{\theta}(X^{(t+1:t+F)} | X^{(t-H:t)}, G)$$ Пространственная агрегация в компоненте ГНС может быть описана схемой передачи сообщений. Для узла $i$ на слое $l$: $$h_i^{(l)} = \text{UPDATE}\left(h_i^{(l-1)}, \text{AGGREGATE}\left(\{h_j^{(l-1)} | j \in \mathcal{N}(i)\}\right)\right)$$ где $h_i$ — эмбеддинг узла. Функция AGGREGATE может быть, например, усреднением (mean pooling) или основанной на механизме внимания, захватывая силу влияния между связанными узлами.
4. Экспериментальные результаты и анализ
4.1. Наборы данных и базовые модели
Оценка проводилась на стандартных пространственно-временных транспортных наборах данных, таких как PeMS и METR-LA, которые содержат данные о скорости/потоке трафика с сетей датчиков. В качестве базовых моделей использовались:
- Традиционные модели временных рядов: ARIMA, VAR.
- Модели глубокого обучения: TCN, LSTM.
- Передовые модели на основе ГНС: DCRNN, STGCN, GraphWaveNet.
- Модели на основе БЯМ: Версии GPT-3 и LLaMA, настроенные с помощью промптов.
4.2. Метрики производительности
Основными метриками были Среднеквадратическая ошибка (RMSE) и Средняя абсолютная ошибка (MAE) для точечных прогнозов, а также Непрерывный ранговый вероятностный счёт (CRPS) для вероятностных прогнозов.
Улучшение производительности
17%
Снижение RMSE при долгосрочном прогнозировании по сравнению с передовыми моделями на основе БЯМ.
Эффективность использования параметров
16%
Более эффективное использование параметров по сравнению с полной тонкой настройкой архитектур БЯМ.
Робастность
Минимальная
Деградация производительности при смене архитектуры БЯМ (например, с GPT на LLaMA).
4.3. Ключевые выводы
Превосходная точность прогнозирования: Strada-LLM последовательно превосходила все базовые модели, особенно в долгосрочных прогнозах (например, на 60-90 минут вперёд). Улучшение RMSE на 17% по сравнению с промпт-ориентированными БЯМ подчёркивает ценность явного моделирования графовой структуры.
Эффективная адаптация с малым количеством примеров: Стратегия адаптации на основе распределения позволила Strada-LLM достичь >90% от пиковой производительности на данных нового города после просмотра всего нескольких дней выборок, демонстрируя замечательную эффективность использования данных.
Интерпретируемость: Анализируя веса внимания во временном энкодере БЯМ и изученные веса рёбер в ГНС, модель может дать представление о том, какие исторические моменты времени и какие соседние узлы были наиболее влиятельными для данного прогноза.
5. Аналитическая структура: Основная идея и критика
Основная идея
Strada-LLM — это не просто очередная ИИ-модель для трафика; это стратегическая ставка на гибридный интеллект. Авторы верно определяют, что чистая настройка промптов монолитных БЯМ является тупиковым путём для структурированных, реляционных данных, таких как транспортные сети. Их ключевая идея заключается в том, что БЯМ должны быть движком временных рассуждений, в то время как ГНС выступают в роли компилятора пространственной структуры. Это более архитектурно обоснованный подход, чем попытка пропустить всё через текстовые промпты, аналогично тому, как модели «визуальный язык» используют отдельные энкодеры для изображений и текста.
Логическая последовательность
Логика убедительна: 1) Трафик имеет присущую графовую структуру → используем ГНС. 2) Временные ряды трафика имеют сложные долгосрочные зависимости → используем БЯМ. 3) Наивное их объединение требует много параметров и может не согласовывать модальности → проектируем целенаправленный механизм слияния с проксимальными ковариатами. 4) Реальное развёртывание сталкивается со сдвигами распределения → изобретаем лёгкий, статистически управляемый адаптер. Это классический пример декомпозиции проблемы в проектировании ML-систем.
Сильные стороны и недостатки
Сильные стороны: Адаптация домена с эффективным использованием параметров — это «убийственная» особенность статьи для жизнеспособности в реальном мире. Она напрямую решает проблему «холодного старта» при развёртывании ИТС в масштабах города. Фокус на вероятностном прогнозировании также заслуживает похвалы, выходя за рамки точечных оценок к количественной оценке неопределённости, что критически важно для принятия решений с учётом рисков в транспорте.
Недостатки и открытые вопросы: Слон в комнате — это вычислительная стоимость. Хотя модель эффективнее полной тонкой настройки, запуск архитектуры БЯМ (даже модели с 7B параметров) для сотен датчиков в реальном времени — нетривиальная задача. В статье отсутствует строгий анализ задержек для онлайн-прогнозирования. Более того, «граф» предполагается статичным (дорожная сеть). Игнорируются динамические графы, которые могли бы представлять временные события, такие как аварии или перекрытия дорог, — область, исследуемая в работах типа Dynamic Graph Neural Networks (Pareja et al., NeurIPS 2020). Оценка на стандартных бенчмарках надёжна, но настоящее стресс-тестирование потребовало бы более гетерогенного набора городов (например, европейская сетка против американской расползающейся застройки).
Практические выводы
Для практиков: Сначала опробуйте эту архитектуру для управления на уровне коридора, а не всего города, чтобы контролировать вычислительные затраты. Модуль адаптации домена может быть извлечён и потенциально использован с другими пространственно-временными моделями. Для исследователей: Самая большая возможность — заменить универсальную архитектуру БЯМ на фундаментальную модель, специфичную для временных рядов (например, TimesFM от Google), что может радикально повысить эффективность. Другое направление — интеграция внешних данных (погода, события) не просто как ковариат, а через слой мультимодального слияния, создавая настоящую модель «цифрового двойника города».
6. Перспективы применения и направления будущих исследований
Краткосрочные (1-3 года): Развёртывание в центрах управления дорожным движением для прогнозирования и смягчения заторов. Strada-LLM может питать системы динамического управления светофорами, которые проактивно корректируют фазы на основе прогнозируемого потока. Её способность к адаптации с малым количеством примеров делает её подходящей для управления особыми событиями (спортивные игры, концерты), где исторических данных мало, но паттерны быстро проявляются.
Среднесрочные (3-5 лет): Интеграция с системами маршрутизации автономных транспортных средств (АТС). Парки АТС могли бы использовать вероятностные прогнозы Strada-LLM для оценки риска различных маршрутов, оптимизируя не только текущее время в пути, но и прогнозируемую стабильность и надёжность. Это также может улучшить планирование грузоперевозок и логистики.
Долгосрочные и исследовательские горизонты:
- Генеративное городское планирование: Использование Strada-LLM в качестве симулятора для оценки транспортного воздействия предлагаемых изменений инфраструктуры (новые дороги, зонирование).
- Мультимодальная интеграция: Расширение за пределы автомобильного трафика для моделирования интегрированной мобильности, включая потоки пешеходов, спрос на каршеринг и загрузку общественного транспорта, что потребует гетерогенных графовых представлений.
- Причинно-следственный вывод: Переход от корреляции к причинности. Может ли модель отвечать на вопросы «что, если», например, о точном влиянии закрытия конкретной полосы? Это согласуется с растущей областью причинного обучения представлений.
- Фундаментальная модель для мобильности: Архитектура Strada-LLM может быть масштабирована и предобучена на глобальных данных о трафике для создания фундаментальной модели для всех пространственно-временных прогнозных задач в городской среде.
7. Ссылки
- Moghadas, S. M., Cornelis, B., Alahi, A., & Munteanu, A. (2025). Strada-LLM: Graph LLM for traffic prediction. Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '25).
- Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017).
- Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. International Conference on Learning Representations (ICLR).
- Li, Y., et al. (2018). Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. International Conference on Learning Representations (ICLR).
- Pareja, A., et al. (2020). EvolveGCN: Evolving Graph Convolutional Networks for Dynamic Graphs. Proceedings of the AAAI Conference on Artificial Intelligence.
- Wu, N., et al. (2023). TimesFM: A Foundation Model for Time Series Forecasting. Google Research. [Препринт].
- OpenStreetMap contributors. (2024). Planet dump. Retrieved from https://www.openstreetmap.org.
- California Department of Transportation (Caltrans). (2024). Performance Measurement System (PeMS). Retrieved from http://pems.dot.ca.gov.