Classify - аналитический сервис на открытых данных
БОЛЬШИЕ ДАННЫЕ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, ФИНАНСОВЫЕ ТЕХНОЛОГИИ И МАШИННОЕ ОБУЧЕНИЕ
При поддержке

Проблема и актуальность

Каждый день вокруг бренда появляется много информации: посты в соц. сетях, отзывы в магазинах преложениях, жалобы и новостные статьи. Прочитать всю информацию физически невозможно. Поэтому мы предлагаем сервис, который поможет разобраться в этом потоке информации.

Цель проекта

Создание сервиса, в основе которого лежит система кластеризации текстовой информации. Сервис поможет пользователю выявить паттерны и закономерности в данных.

Задачи проекта

☑ Разрабтать несколько типов моделей кластеризации
☑ Сравнить модели кластеризации на нескольких выборках
☑ Реализовать стратегию Active Learning
☑ Создать удобный UI для пользователей
☑ Создать Backend для работы сервиса
☑ Объединить Frontend и Backend
Результаты
Создан сервис для анализа текстовой информацию, позволяющий увидеть темы и ключевые слова, при том экономя время пользвователя на самостоятельное чтение.

Ключевыми функциями нашего сервиса являются распределение документов на кластеры и активное обучение, которое позволяет подстраиваться под каждого пользователя индивидуально.
Этапы проекта
1
Модели для задачи кластеризации
DBSCAN on UMAP, Topic modeling, Bert Clustering, Deep K-means
2
Стретегии Active Learning
Classifier on Bert, Classifier on TF-IDF
3
Frontend
Проектирование внешнего вида сайта
4
Backend
Объединение всех моделей

Планы развития проекта

В перспективе развития проекта мы планируем:

Доделать интеграцию Active Leaning в сервис
Сейчас не доделана интеграция Active Leaning с MongoDB
Проверить другие модели классификации
Active Learning не удаптирован для работы на сильно несбалансированных данных. Необходимо проверить иные подходы к классификации (kNN based, Siamese Networks)
Реалзиация новых методов кластеризации
Некоторые алгоритмы кластеризации (например SCCL) показывают неплохие результаты в исследованиях.
Принцип работы
Наша Команда
  • Лев Меркушов

    Руководитель

    (Банк ВТБ)

  • Алексей Рябых

    Руководитель

    (Банк ВТБ)

  • Василий Гаршин

    Руководитель

    (ВТБ - Образование)

  • Кирилл Осинцев
    Frontend/Design/DevOps
  • Алексей Щербаков
    Machine Learning
  • Степан Юнда
    Machine Learning
  • Илья Гринюк
    Machine Learning
  • Всеволод Киричук
    Machine Learning
Фотоотчет
Направление «Большие данные, искусственный интеллект, финансовые технологии и машинное обучение»



© Большие Вызовы, 2022