Большие данные, искусственный интеллект, финансовые технологии и машинное обучение
Оценка правдоподобия структуры молекулярного комплекса
Российская биотехнологическая компания, занимающаяся исследованием, разработкой, производством и дистрибуцией фармацевтической и биофармацевтической продукции

Актуальность

В современной фармацевтике набирают популярность лекарства, основанные на искусственных антителах. Антитело - это своеобразный "маячок" для естественных киллеров. Оно крепится к определенному рецептору враждебной клетки, чтобы иммунная система организма могла противодействовать ей. Таким образом организм способен эффективно противодействовать заболеваниям.

На данный момент одна из наиболее перспективных отраслей применения таких антител — лечение онкологических заболеваний.
Проблема

Однако в производстве лекарств на основе антител есть трудности. На проверку получившихся образцов уходит значительное количество времени.


Для повышения эффективности исследования можно вычислительно определить то, как разрабатываемое антитело зацепится за целевую молекулу. Это уменьшит количество вариантов для лабораторного анализа, сокращая затраты по времени и ресурсам: можно не рассматривать антитела, которые прикрепились к целевой молекуле неправильно.


Следовательно, чтобы создать лекарство, нужно проанализировать, как антитело будет крепиться, например, к раковой клетке. А для этого нужно понять, какие структуры данного молекулярного комплекса могут существовать в природе, а какие — нет.


Задача докинга состоит в предсказании наиболее вероятной структуры молекулярного комплекса.

Алгоритм HEDGE
В BIOCAD был разработан алгоритм HEDGE для решения задачи докинга. Принцип его работы основан на минимизации потенциальной энергии межмолекулярного взаимодействия: низкая энергия — признак правдоподобия получившегося комплекса.
Алгоритм состоит из 4 этапов:
1
Перебор всевозможных взаимных положений молекул
2

Группировка найденных положений



3

Улучшение комплексов



4
Отбор наиболее правдоподобных положений
На последнем этапе происходит определение правдоподобия структуры молекулярного комплекса по значению его энергии. Чем меньше энергия, тем более правдоподобным считается комплекс.
Этот этап работы алгоритма можно улучшить, если учесть при определении правдоподобия комплекса характеристики, отличные от энергии.
Цель проекта:
улучшить последний этап HEDGE за счет создания модели ML, которая определяет, правдоподобен комплекс или нет.
Гипотезы
1
Есть характеристика комплекса, отличная от энергии, использование которой в HEDGE повысит точность этапа оценки правдоподобия структуры молекулярного комплекса
2
В качестве модели для предсказания правдоподобия структуры молекулярного комплекса по собранным характеристикам хорошо подойдут классические подходы ML, такие как: логистическая регрессия, kNN, случайный лес

Результаты проверки гипотез

Для построения и оценки точности наших моделей мы использовали выборку из 32 тысяч молекулярных комплексов. Для каждого из комплексов было посчитано 15 характеристик и заранее определено, является комплекс правдоподобным или нет.

В качестве метрики точности мы использовали функцию F1-score. Она лучше всего подходит для нашей задачи: в данных наблюдается дисбаланс классов и F1-score это учитывает.
Точность метода оценки правдоподобия молекулярного комплекса, реализованного в HEDGE на последнем этапе, составляет 0.28.

1) С помощью таблицы корреляции мы нашли новую характеристику — group_size. group_size соответствует размеру группы, в которую попал комплекс на втором этапе работы HEDGE. Использование новой характеристики на последнем этапе HEDGE повысило его точность до 0.37.


2) Классические методы ML подошли для решения нашей задачи и помогли существенно улучшить представленный выше результат. Ниже описаны наши исследования трёх моделей ML.


Использованные методы ML
Логистическая регрессия
Во время работы с логистической регрессией мы столкнулись с рядом проблем:

- Поиск оптимальных параметров регрессии с помощью Grid Search занимал много времени

- Максимальная точность при заданном диапазоне параметров получилась маленькой

С помощью использования для поиска оптимальных параметров метода имитации отжига удалось увеличить скорость построения модели, а точность повысилась до 0.43. В логистической регрессии мы использовали 8 характеристик молекулярного комплекса.
Метод К ближайших соседей
С помощью Grid Search мы подобрали следующие параметры модели: число ближайших соседей, используемые характеристики и метрику расстояния. Лучшая точность, которую нам удалось получить, — 0.36.
Случайный лес
Мы нашли оптимальные параметры случайного леса: число деревьев, их глубину и вес каждого из классов. В итоге данная модель дала нам самую высокую точность — 0.5.

Итоговая модель
Лучшая модель для оценки правдоподобия молекулярного комплекса, которую нам удалось построить, — случайный лес. Её точность 0.5 превосходит точность 0.28 метода, реализованного в HEDGE на данный момент.

Финальным этапом нашей работы стала проверка того, что различие в точностях случайного леса и способа оценки правдоподобия молекулярного комплекса, реализованного в HEDGE, является значимым, то есть не обусловленным случайностью.

Чтобы доказать, что наше решение значимо лучше, мы использовали метод Bootstrap. Мы сгенерировали 10000 выборок на основе тестовой выборки, посчитали на каждой из них точности базового решения из HEDGE и нашего случайного леса и вычислили процент случаев, в которых базовое решение было лучше. Так как базовое решение было лучше менее, чем в 5% случаев, мы сделали вывод о том, что случайный лес значимо лучше базового решения.

Что дальше?
Реализованная нами модель в ближайшем будущем будет интегрирована в алгоритм HEDGE. Это позволит алгоритму лучше находить наиболее вероятные структуры молекулярных комплексов. Что, в свою очередь, повысит эффективность создания лекарственных средств при помощи HEDGE.
Команда
Садовников А.В.

Научный руководитель
Антипов В.С.
Участник проекта 
Кожанов Г.Д.
Участник проекта 
Хисалиев Д.Д.
Участник проекта 
Фидаров Г.Г.
Участник проекта 
Сафронова В.М.
Участник проекта 
Тривонов Я.Н.
Участник проекта 
Фотоотчет

Большие данные, искусственный интеллект,
финансовые технологии и машинное обучение