Создание датасета для моделей компьютерного зрения с помощью 3D-визуализации и генеративных сетей
Команда
  • Артём Золотарёв
    3Д-художник
  • Дмитрий Моисеев
    Разработчик
  • Егор Степанов
    ML-инженер
  • Руслан Амадян
    ML-инженер
Наставники
  • Леонид Красников
    Руководитель
  • Илья Смолин
    Ассистент руководителя
  • Денис Карачёв
    Эксперт
  • Евгений Волков
    Эксперт
  • Лия Соломонова
    Эксперт
  • Максим Исаков
    Эксперт

Проблема
Высокая стоимость создания размеченных датасетов. Сбор данных может быть физически сложен, Ручная разметка крайне трудозатратна. а современные модели требуют огромные объемы данных.
Создание датасета
Высокая стоимость
Сложность сбора данных
Трудозатратность разметки
Большие объёмы данных
Наше решение
Использовать синтетический датасет для обучения нейросети. Мы разработали автоматическую систему генерации обучающих данных с использованием рендеринга и генеративных моделей. Кроме того, протестировали эту систему, обучив нейросеть на сегментацию деталей вагона, платформы и локомотива.
Цель
Создать инструмент для автоматической генерации датасета с разметкой на основе рендеринга и генеративных сетей и проверить его работоспособность.
Задачи
Создать датасет
Обучить модель компьютерного зрения
Создать
веб-приложение
Проверить работу модели
Расширить датасет с помощью генеративных сетей
Разработать алгоритм движения камеры
Создать сцену

Сцены
Мы создали детализированные 3D-сцены с различными объектами. Это полноценные виртуальные окружения, где можно размещать любые 3D-модели для дальнейшего рендера.
Камера
Разработанный алгоритм автоматически позиционирует виртуальную камеру вокруг объекта по точкам (красные точки на изображении), делая рендеры в различных местах и под разными углами. В результате мы получили 1000 рендеров и масок сегментации за час.
Генеративные сети
Для расширения датасета, мы использовали, генеративные модели CosXL и ICLight. CosXL изменяет изображение. При помощи исходных масок модель переносится в новое окружение, после чего используется гармонизация - адаптация объекта в новое окружение. ICLight делает более реалистичные изображения, но может упустить мелкие объекты, а так же может изменить изначальный объект.
CosXL
ICLight
Компьютерное зрение
Для сегментации использовалась нейросеть YOLO 11.
Этап 1. Обучение модели компьютерного зрения на 3D-моделях игрушечных вагонов. Проверка проводилась как на фотографиях игрушечных вагонов, так и на реальных.
Этап 2. Обучение модели компьютерного зрения на реалистичной 3D-модели локомотива. Проверка проводилась как на фотографиях реальных локомотивов.
Результат работы YOLO11
Итоговые метрики
Реальные вагоны
Модель
0,95
0,85
0,83
Локомотив
Веб-приложение
Для демонстрации работы нейросети используется веб-приложение.

Заключение
В рамках работы была разработана система для автоматической генерации размеченных обучающих данных, сочетающая методы рендеринга и генеративных моделей. Для проверки её эффективности проведён эксперимент по обучению нейронной сети на задаче сегментации деталей вагонов, платформ и локомотивов.