Вся генетическая информация организма записана в геноме, закодированном в виде последовательности нуклеотидов ДНК.
Изменение в ДНК - мутация. Мутация в одном нуклеотиде называется SNP (однонуклеотидный полиморфизм).

Для обнаружения мутации в гене используют полногеномное секвенирование или определение лишь одного SNP, например, пцр (полимеразная цепная реакция) тестом.
Существует взаимосвязь различных заболеваний организма с его геномом и можно выявить, какая именно мутация может привести к заболеванию. Для этого существует метод выявления генетических ассоциаций, он заключается в сравнении частоты аллелей определенного гена в группе больных с частотой данных аллелей в общей популяции специальными статистическими методами.
Актуальность и проблема проекта

Актуальность: из-за большого массива статей, описывающих SNP, ассоциированных с T2D, поиск и обработка полученных данных является трудоемким процессом. Это приводит к необходимости оптимизации мета-анализа.

Проблема: трудозатратность проведения мета-анализа, а также нахождение новых ассоциаций.

Цель: автоматизировать проведение мета-анализа.

Задачи, которые необходимо выполнить для реализации проекта

№1

Собрать статьи на ассоциацию гена TCF7L2 с T2D

№2
Провести мета-анализ стандартным способом (вручную)
№3
Провести подбор запросов к нейросети
№4
Провести сравнительный анализ эффективности двух вариантов
№5
Внедрить нейросеть в процесс мета анализа
Существует два типа современных генетических мета-анализов
Мета-анализы, в которых анализируется группа научных статей, где исследовались ассоциации одного или несколько отдельных SNP с каким-либо заболеванием (рис. 1).
Мета-анализы, основанные на объединении GWAS (ассоциаций, выявленнных при помощи полногеномного секвинирования) (рис. 2).
Эти два типа мета-анализов проводятся по-разному. Для начала разработки алгоритмизации мы выбрали самый простой и провереный метод из этих двух (по одному snp).

Для начала мы взяли мета-анализ (Meta-analysis of associations between TCF7L2 polymorphisms and risk of type 2 diabetes mellitus in the Chinese population, 2013), с исследованием ассоциаций нескольких SNP в гене TCF7L2 с T2D. И решили воспроизвести все его этапы, для:

1. Его изучения

2. Нахождения его особенностей

3. Лучшего понимая этапов, необходимых для алгоритмизации процесса создания мета-анализа

🔴 Невозможно найти исходную статью.
⚫️ В исходной статье не обнаружены описываемые данные.
🟡 Неверные данные по числу аллелей.
🔵 Данные взяты только по одному региону. Иные, описанные в исходных статьях, регионы игнорируются.

На рисунке выше вы можете наблюдать проблемы, возникшие при его повторе. В таблице справа представлен набор данных оригинальной статьи, необходимый для мета-анализа. А именно: список статей, где представлена частота встречаемости аллелей одного полиморфизма у здоровых и больных людей. Начав воспроизводить этот мета-анализ вручную, мы столкнулись со следующими проблемами:

  1. 9 из 14 статей, использованных авторами, не возможно найти ввиду того, что они опубликованы в местных научных журналах на китайском языке.
  2. В 3 из 14 число аллелей посчитано неверно, причина этого не ясна.
  3. В одной из статей maf описан только для контрольной группы.
  4. В ещё одной статье из двух стран была взята только одна. И лишь к одной из 14 статей не имеется никаких вопросов.

Получив такие неоднозначные данные, мы решили повторить ещё один мета-анализ, сделанный в этот раз в Европе. В целом картина была схожа с первым мета-анализом, однако большинство проблем возникло не с невозможностью найти исходные статьи, а с тем, что они не имели бесплатного доступа.



По результатам воспроизведённого мета-анализа были выявлены несколько основных существенных проблем:

  1. Статьи должны быть в полном бесплатном доступе
  2. Статьи должны быть на английском языке
  3. Данные в статьях должны быть в простом и доступном для вычленения алгоритмом виде.

Первый этап программы – отбор статей по генетической ассоциации изучаемого SNP с заболеванием по ключевым словам из базы данных научной литературы PubMed, которые и будут составлять основу для проведения мета-анализа.

Сначала программа подает особенный запрос на сервер PubMed с помощью API-ключа и получает страницу со статьей, далее программа находит на странице слово Abstract (раздел с выжимкой всего проекта), а уже в этом разделе ключевые слова. Сами слова разделяются на два типа, те, что должны быть в статье и те, что должны отсутствовать. Их и результат первого этапа работы программы (в виде списка отобраных статей) вы можете видеть на рисунке.

Блок - термины

  1. GWAS
  2. Meta
  3. PrePrint
Обязательные термины

  1. Association
  2. TCF7L2
  3. Type 2 Diabetes
  4. T2D
  5. MAF / RAF

Вторым этапом программы является подготовка набора данных (таблицы со всеми данными), который будет использоваться на конечном этапе мета-анализа. Список всех необходимых даных вы можете видеть на рисунке, все данные находятся в разных местах статьи и занесены в нее по разному, поэтому будут использоваться три метода обработки статьи: первый метод - это обработка скриптом обращения к интернет страницам – для данных, которые находятся в статье на определенно заданных местах (название, год, имена ученых), запрос к LLM (GPT) – для данных, которые можно выявить только прочитав текст с точки зрения человека (страны и регионы проведения) и Математическая Модель для нахождения данных в таблице (на основе нейросети)

Методы анализа статей
  1. Code
  2. GPT
  3. M. M.
Необходимые данные
  1. Year
  2. Name
  3. Country
  4. Case cohort
  5. Control cohort
  6. MAF / RAF
Машинный мета-анализ
Опубликованный мета-анализ (Wang, 2013)

Заключительный этап обработки – программа на статистическом языке R. R – это язык программирования, созданный специально для статистического анализа данных. Данная программа будет принимать набор данных (таблицу с данными) и выполнять сам мета-анализ, после чего будет выводить результат в виде таблицы и диаграмм, пример которого вы можете видеть на рисунке ниже.

Планы и развитие проекта

Front-end
Back-end
• Упростить взаимодействие пользователя с программой путем создания удобного сайта
• Расширить функционал программы
• Улучшить промпт в GPT
• Расширить функционал парсера
• Усовершенствовать соединение всех частей кода
• Сделать программу более универсальной
Благодарим участников «Больших вызовов» с направления «Большие данные» за неоценимую помощь!
  • Александр Садовников
  • Жамков Никита
  • Гончаров Владислав
КОМАНДА ПРОЕКТА
  • Лев Усакин
    Руководитель проекта
  • Кристина Дариенко
    Ассистент руководителя
  • Влада Леушин
    Ассистент руководителя
  • Анастасия Бондарева
    Дизайнер, маркетолог
  • Генин Андрей
    Программист
  • Беатриса Коротыш
    Дизайнер, маркетолог
  • Владимир Чекмарёв
    Биолог

Финальный код программы и вся документация доступны по:

СПАСИБО ЗА ВНИМАНИЕ!
Если у Вас возникли вопросы, то можете обратиться к нам по адресу:
tg:@btrdt - Беатриса Коротыш
tg:@NastyshkaBondr - Анастасия Бондарева
tg:@andrewgenin - Андрей Генин