Classify - аналитический сервис на открытых данных
БОЛЬШИЕ ДАННЫЕ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, ФИНАНСОВЫЕ ТЕХНОЛОГИИ И МАШИННОЕ ОБУЧЕНИЕ
При поддержке
Проблема и актуальность
Каждый день вокруг бренда появляется много информации: посты в соц. сетях, отзывы в магазинах преложениях, жалобы и новостные статьи. Прочитать всю информацию физически невозможно. Поэтому мы предлагаем сервис, который поможет разобраться в этом потоке информации.
Цель проекта
Создание сервиса, в основе которого лежит система кластеризации текстовой информации. Сервис поможет пользователю выявить паттерны и закономерности в данных.
Задачи проекта
☑ Разрабтать несколько типов моделей кластеризации ☑ Сравнить модели кластеризации на нескольких выборках ☑ Реализовать стратегию Active Learning ☑ Создать удобный UI для пользователей ☑ Создать Backend для работы сервиса ☑ Объединить Frontend и Backend
Результаты
Создан сервис для анализа текстовой информацию, позволяющий увидеть темы и ключевые слова, при том экономя время пользвователя на самостоятельное чтение.
Ключевыми функциями нашего сервиса являются распределение документов на кластеры и активное обучение, которое позволяет подстраиваться под каждого пользователя индивидуально.
Этапы проекта
1
Модели для задачи кластеризации
DBSCAN on UMAP, Topic modeling, Bert Clustering, Deep K-means
Сейчас не доделана интеграция Active Leaning с MongoDB
Проверить другие модели классификации
Active Learning не удаптирован для работы на сильно несбалансированных данных. Необходимо проверить иные подходы к классификации (kNN based, Siamese Networks)
Реалзиация новых методов кластеризации
Некоторые алгоритмы кластеризации (например SCCL) показывают неплохие результаты в исследованиях.
Принцип работы
Наша Команда
Лев Меркушов
Руководитель
(Банк ВТБ)
Алексей Рябых
Руководитель
(Банк ВТБ)
Василий Гаршин
Руководитель
(ВТБ - Образование)
Кирилл Осинцев
Frontend/Design/DevOps
Алексей Щербаков
Machine Learning
Степан Юнда
Machine Learning
Илья Гринюк
Machine Learning
Всеволод Киричук
Machine Learning
Фотоотчет
Направление «Большие данные, искусственный интеллект, финансовые технологии и машинное обучение»