Мета-анализ генетических данных

Конкурс научно-технологических проектов «Большие вызовы»

Вся генетическая информация организма записана в геноме, закодированном в виде последовательности нуклеотидов ДНК.
Изменение в ДНК - мутация. Мутация в одном нуклеотиде называется SNP (однонуклеотидный полиморфизм).

Для обнаружения мутации в гене используют полногеномное секвенирование или определение лишь одного SNP, например, пцр (полимеразная цепная реакция) тестом.

Существует взаимосвязь различных заболеваний организма с его геномом и можно выявить, какая именно мутация может привести к заболеванию. Для этого существует метод выявления генетических ассоциаций, он заключается в сравнении частоты аллелей определенного гена в группе больных с частотой данных аллелей в общей популяции специальными статистическими методами.

Актуальность и проблема проекта

Актуальность: из-за большого массива статей, описывающих SNP, ассоциированных с T2D, поиск и обработка полученных данных является трудоемким процессом. Это приводит к необходимости оптимизации мета-анализа.

Проблема: трудозатратность проведения мета-анализа, а также нахождение новых ассоциаций.

Цель: автоматизировать проведение мета-анализа.

Задачи, которые необходимо выполнить для реализации проекта

№1

Собрать статьи на ассоциацию гена TCF7L2 с T2D

№2

Провести мета-анализ стандартным способом (вручную)

№3

Провести подбор запросов к нейросети

№4

Провести сравнительный анализ эффективности двух вариантов

№5

Внедрить нейросеть в процесс мета анализа

Существует два типа современных генетических мета-анализов

Мета-анализы, в которых анализируется группа научных статей, где исследовались ассоциации одного или несколько отдельных SNP с каким-либо заболеванием (рис. 1).

Мета-анализы, основанные на объединении GWAS (ассоциаций, выявленнных при помощи полногеномного секвинирования) (рис. 2).

Эти два типа мета-анализов проводятся по-разному. Для начала разработки алгоритмизации мы выбрали самый простой и провереный метод из этих двух (по одному snp).

Для начала мы взяли мета-анализ (Meta-analysis of associations between TCF7L2 polymorphisms and risk of type 2 diabetes mellitus in the Chinese population, 2013), с исследованием ассоциаций нескольких SNP в гене TCF7L2 с T2D. И решили воспроизвести все его этапы, для:

1. Его изучения

2. Нахождения его особенностей

3. Лучшего понимая этапов, необходимых для алгоритмизации процесса создания мета-анализа

🔴 Невозможно найти исходную статью.
⚫️ В исходной статье не обнаружены описываемые данные.
🟡 Неверные данные по числу аллелей.
🔵 Данные взяты только по одному региону. Иные, описанные в исходных статьях, регионы игнорируются.

На рисунке выше вы можете наблюдать проблемы, возникшие при его повторе. В таблице справа представлен набор данных оригинальной статьи, необходимый для мета-анализа. А именно: список статей, где представлена частота встречаемости аллелей одного полиморфизма у здоровых и больных людей. Начав воспроизводить этот мета-анализ вручную, мы столкнулись со следующими проблемами:

9 из 14 статей, использованных авторами, не возможно найти ввиду того, что они опубликованы в местных научных журналах на китайском языке.
В 3 из 14 число аллелей посчитано неверно, причина этого не ясна.
В одной из статей maf описан только для контрольной группы.
В ещё одной статье из двух стран была взята только одна. И лишь к одной из 14 статей не имеется никаких вопросов.

Получив такие неоднозначные данные, мы решили повторить ещё один мета-анализ, сделанный в этот раз в Европе. В целом картина была схожа с первым мета-анализом, однако большинство проблем возникло не с невозможностью найти исходные статьи, а с тем, что они не имели бесплатного доступа.

По результатам воспроизведённого мета-анализа были выявлены несколько основных существенных проблем:

Статьи должны быть в полном бесплатном доступе
Статьи должны быть на английском языке
Данные в статьях должны быть в простом и доступном для вычленения алгоритмом виде.

Первый этап программы – отбор статей по генетической ассоциации изучаемого SNP с заболеванием по ключевым словам из базы данных научной литературы PubMed, которые и будут составлять основу для проведения мета-анализа.

Сначала программа подает особенный запрос на сервер PubMed с помощью API-ключа и получает страницу со статьей, далее программа находит на странице слово Abstract (раздел с выжимкой всего проекта), а уже в этом разделе ключевые слова. Сами слова разделяются на два типа, те, что должны быть в статье и те, что должны отсутствовать. Их и результат первого этапа работы программы (в виде списка отобраных статей) вы можете видеть на рисунке.

Блок - термины

GWAS
Meta
PrePrint

Обязательные термины

Association
TCF7L2
Type 2 Diabetes
T2D
MAF / RAF

Вторым этапом программы является подготовка набора данных (таблицы со всеми данными), который будет использоваться на конечном этапе мета-анализа. Список всех необходимых даных вы можете видеть на рисунке, все данные находятся в разных местах статьи и занесены в нее по разному, поэтому будут использоваться три метода обработки статьи: первый метод - это обработка скриптом обращения к интернет страницам – для данных, которые находятся в статье на определенно заданных местах (название, год, имена ученых), запрос к LLM (GPT) – для данных, которые можно выявить только прочитав текст с точки зрения человека (страны и регионы проведения) и Математическая Модель для нахождения данных в таблице (на основе нейросети)

Методы анализа статей

Code
GPT
M. M.

Необходимые данные

Year
Name
Country
Case cohort
Control cohort
MAF / RAF

Машинный мета-анализ

Опубликованный мета-анализ (Wang, 2013)

Заключительный этап обработки – программа на статистическом языке R. R – это язык программирования, созданный специально для статистического анализа данных. Данная программа будет принимать набор данных (таблицу с данными) и выполнять сам мета-анализ, после чего будет выводить результат в виде таблицы и диаграмм, пример которого вы можете видеть на рисунке ниже.

Планы и развитие проекта

Front-end

Back-end

• Упростить взаимодействие пользователя с программой путем создания удобного сайта

• Расширить функционал программы
• Улучшить промпт в GPT
• Расширить функционал парсера
• Усовершенствовать соединение всех частей кода
• Сделать программу более универсальной

Благодарим участников «Больших вызовов» с направления «Большие данные» за неоценимую помощь!

Александр Садовников
Жамков Никита
Гончаров Владислав

КОМАНДА ПРОЕКТА

Лев Усакин

Руководитель проекта
Кристина Дариенко

Ассистент руководителя
Влада Леушин

Ассистент руководителя

Анастасия Бондарева

Дизайнер, маркетолог
Генин Андрей

Программист
Беатриса Коротыш

Дизайнер, маркетолог
Владимир Чекмарёв

Биолог

Финальный код программы и вся документация доступны по:

СПАСИБО ЗА ВНИМАНИЕ!

Если у Вас возникли вопросы, то можете обратиться к нам по адресу:

tg:@btrdt - Беатриса Коротыш
tg:@NastyshkaBondr - Анастасия Бондарева
tg:@andrewgenin - Андрей Генин