Гео-эмбеддинги

построение универсального представления локации

О проекте
Исследование о сравнении классических и графовых подходов в контексте задачи предсказания выручки в геозонах для конкретных категорий бизнеса

Различные виды бизнеса сталкиваются с необходимостью оценки и выбора локаций для оффлайн-точек продаж, взаимодействия с клиентом
Экономические потери
от неоптимального расположения торговых точек
Недовольство клиентов
при выборе локации
Сложность таргетирования
целевой аудитории при размещении наружной рекламы
Актуальность
Проблемы

Гипотезы
Графовые подходы точнее описывают геометрию городов
Мультимодальный подход растровые изображения + графы лучше отражают локальные и глобальные свойства района
Исследовать, какие подходы к обучению лучше решают задачу выбора оптимально локации

Параметры населения
Торговая активность
Параметры застройки
Интересы населения
Геоданные
ML
Classic ML
Свёртки, многослойные представления
Графовые нейросети
Трансформеры

Почему графы?
Графовое представление геоданных позволяет точнее учесть пространственные свойства района
Для графового представления естественно возникают постановки для semi-supervised и unsupervised методов машинное обучения

Данные, которые у нас были
Транзакции разных бизнесов
Области и регионы в городах
Расположение метро и другого общественного транспорта
Геоданные по зонам
Графы городов

Этапы работы
Изучение предметной области
Предобработка данных
Построение baseline
Обработка графовых
данных
Работа с растровыми изображениями
GNN в парадигме Semi-supervised Tranductive learning
GNN в парадигме
Unsupervised Inductive
learning
Сравнение с baseline
Визуализация результатов

01
BaseLine
CatBoost
RandomForest
LinearRegression
02
Semi-supervised learning
GAT/GCN Transductive
GAT/GCN Inductive
Multimodal
03
Unsupervised learning
GraphSage/GAT - Learning nodes embeddings
GraphInfoMax - Learning graph representation
Подходы

Pipeline Transductive Learning + Растры

GraphSage Unsupervised learning

Результаты
Геометрия города сильно влияет на результаты
Графовый подход повышает качество моделей в большинстве случаев
Использование изображений помогает лучше учитывать локальные свойства зон, которые хорошо выражены в некоторых городах
GraphSAGE

GitHub

Команда

  • Муратшин
    Динияр
    моделирование, аналитика
  • Максименко
    Ксения
    аналитика, дизайн
  • Динмухаметов
    Данис
    моделирование, аналитика
  • Цыганок
    Юлия
    визуализация, аналитика

Руководители проекта

  • Даниил Ушаков
    Банк ВТБ (ПАО)
  • Алексей Пустынников
    Банк ВТБ (ПАО)
  • Лев Меркушов
    Банк ВТБ (ПАО)