In silico дизайн уникальных флуоресцентных белков
Флуоресцентные белки (ФБ) – это белки, характеризующиеся способностью в ответ на облучение светом определённой длины волны излучать свет в более длинноволновой области спектра.
α-спираль
β-бочонок
Что такое флуоресцентные белки?
активный центр (3 аминокислоты, отвечающие за флуоресценции)
поддерживающие аминокислоты
Спектры флуоресцентных белков характеризуются максимумами длин волн поглощения (λex) и испускания (λem).
Современные методы разработки лекарственных препаратов предполагают точное воздействие на организм и возникает задача отбора клеток с заданными свойствами. Используют метод проточной цитофлуориметрии.
Актуальность
– это метод исследования, который позволяет анализировать физические и химические свойства клеток, проходящих через узкий поток жидкости, одну за другой.
Проточная цитофлуориметрия
Необходимо множество уникальных флуоресцентных белков для каждого типа клеток, создавать их вручную нерационально, поэтому можно использовать нейросетевые подходы.
Проблема
Применение флуоресцентных белков
Модельный объект
Цель: разработать нейросетевой алгоритм для генерации новых флуоресцентных белков с заданными свойствами.
Дизайн решения
Последовательность аминокислот ФБ
Замаскированная последовательность аминокислот ФБ
Структура ФБ – активный центр и его окружение
Генерация флуоресцентных белков
Модель ESM3
• белковая языковая модель
• обучена на данных о более чем 2,78 миллиардах белков
• предсказывает замаскированные части последовательностей и структур
фильтрация белков
Итоговая генерация
Синтез в лаборатории
Генерация флуоресцентных белков
Большинство флуоресцентных белков светят в зеленом спектре, что подчеркивает проблему генерации белков, которые испускают свет в спектре отличном от зеленого.
База данных FP base
Cодержит

  • данные о 980 флуоресцентных белках
  • свойства флуоресцентных белков:
-максимум спектра поглощения
-максимум спектра испускания
-яркость свечения
-время жизни
-время созревания белка
-стоксовский сдвиг
-чувствительность к кислотности среды
Предсказание свойств флуоресцентных белков
kNN
CNN
Используемые методы ML
kNN
  1. Вычисление расстояния между тестовым и всеми обучающими образцами.
  2. Выбор k-ближайших образцов (соседей), где число k задаётся заранее.
  3. Определение итогового прогноза среди выбранных k-ближайших образцов: в случае классификации — мода, в случае регрессии — среднее арифметическое.
  4. Повторение предыдущих шагов для всех тестовых образцов.
Алгоритм
интерпретируемый базовый пайплайн
плохо учитывает точечные мутации в активном центре
CNN
входной слой
cверточные слои
(фильтрация входных данных, выделение локальных признаки)
слои пулинга
(уменьшение размерности карт признаков, выделение наиболее значимой информацию)
полносвязные слои
(окончательная классификация / регрессия)
хорошо распознает локальные паттерны
потеря позиционной информации
LSTM
Архитектура:
  1. Входные ворота (Input Gate). Определяют, какая информация из входных данных будет добавлена в ячейку памяти.
  2. Забывающие ворота (Forget Gate). Отвечают за удаление устаревшей информации из ячейки памяти.
  3. Выходные ворота (Output Gate). Контролируют, какая информация будет передана на следующий этап обработки.
затухающие градиенты на длинных последовательностях
может видеть зависимости между удаленными аминокислотами
Качество предсказания длины волны испускания (λem_max)
Выделение активного центра
Работа c GNN
Качество предсказания длины волны испускания (λem_max) по структуре активного центра
Команда
Маша
Илья
Артем
Никита
Рим
Исследователь,
дизайнер
MLOps, разработчик
Аналитик данных, ML-инженер
ML-инженер,
backend разработчик
ML-инженер, исследователь,
разработчик
In silico дизайн уникальных флуоресцентных белков
α-спираль
Что такое флуоресцентные белки?
β-бочонок
Флуоресцентные белки (ФБ) – это белки, характеризующиеся способностью в ответ на облучение светом определённой длины волны излучать свет в более длинноволновой области спектра.
поддерживающие аминокислоты
активный центр (3 аминокислоты, отвечающие за флуоресценции)
Спектры флуоресцентных белков характеризуются максимумами длин волн поглощения (λex) и испускания (λem).
Актуальность
Современные методы разработки лекарственных препаратов предполагают точное воздействие на организм и возникает задача отбора клеток с заданными свойствами. Используют метод проточной цитофлуориметрии.
– это метод исследования, который позволяет анализировать физические и химические свойства клеток, проходящих через узкий поток жидкости, одну за другой.
Проточная цитофлуориметрия
Проблема
Необходимо множество уникальных флуоресцентных белков для каждого типа клеток.
Применение флуоресцентных белков
Модельный объект
Цель: разработать нейросетевой алгоритм для генерации новых флуоресцентных белков с заданными свойствами.
Дизайн решения
Структура ФБ – активный центр и его окружение
Замаскированная последовательность аминокислот ФБ
Последовательность аминокислот ФБ
Генерация флуоресцентных белков
• белковая языковая модель
• обучена на данных о более чем 2,78 миллиардах белков
• предсказывает замаскированные части последовательностей и структур
Модель ESM3
Thomas Hayes et al. Simulating 500 million years of evolution with a language model, Science, 2025
Синтез в лаборатории
Итоговая генерация
фильтрация белков
Генерация флуоресцентных белков
База данных FP base
Большинство флуоресцентных белков светят в зеленом спектре, что подчеркивает проблему генерации белков, которые испускают свет в спектре отличном от зеленого.
Предсказание свойств флуоресцентных белков
kNN
  1. Вычисление расстояния между тестовым и всеми обучающими образцами.
  2. Выбор k-ближайших образцов (соседей), где число k задаётся заранее.
  3. Определение итогового прогноза среди выбранных k-ближайших образцов: в случае классификации — мода, в случае регрессии — среднее арифметическое.
  4. Повторение предыдущих шагов для всех тестовых образцов.
Алгоритм
интерпретируемый базовый пайплайн
плохо учитывает точечные мутации в активном центре
CNN
входной слой
cверточные слои
(фильтрация входных данных, выделение локальных признаки)
слои пулинга
(уменьшение размерности карт признаков, выделение наиболее значимой информацию)
полносвязные слои
(окончательная классификация / регрессия)
хорошо распознает локальные паттерны
потеря позиционной информации
LSTM
Архитектура:
  1. Входные ворота (Input Gate). Определяют, какая информация из входных данных будет добавлена в ячейку памяти.
  2. Забывающие ворота (Forget Gate). Отвечают за удаление устаревшей информации из ячейки памяти.
  3. Выходные ворота (Output Gate). Контролируют, какая информация будет передана на следующий этап обработки.
затухающие градиенты на длинных последовательностях
может видеть зависимости между удаленными аминокислотами
Результаты
Качество предсказания длины волны испускания (λem_max)
...
...
Активные центры и окружения
Стуктуры ФБ
Выделение активного центра
Targets
Работа c GNN
Качество предсказания длины волны испускания (λem_max) по структуре активного центра
Команда
Участники
Руководители
Маша
Илья
Артем
Никита
Рим
Ким Павел
Вяткин Никита