Актуальность: из-за большого массива статей, описывающих SNP, ассоциированных с T2D, поиск и обработка полученных данных является трудоемким процессом. Это приводит к необходимости оптимизации мета-анализа.
Проблема: трудозатратность проведения мета-анализа, а также нахождение новых ассоциаций.
Цель: автоматизировать проведение мета-анализа.
Задачи, которые необходимо выполнить для реализации проекта
Собрать статьи на ассоциацию гена TCF7L2 с T2D
Для начала мы взяли мета-анализ (Meta-analysis of associations between TCF7L2 polymorphisms and risk of type 2 diabetes mellitus in the Chinese population, 2013), с исследованием ассоциаций нескольких SNP в гене TCF7L2 с T2D. И решили воспроизвести все его этапы, для:
1. Его изучения
2. Нахождения его особенностей
3. Лучшего понимая этапов, необходимых для алгоритмизации процесса создания мета-анализа
На рисунке выше вы можете наблюдать проблемы, возникшие при его повторе. В таблице справа представлен набор данных оригинальной статьи, необходимый для мета-анализа. А именно: список статей, где представлена частота встречаемости аллелей одного полиморфизма у здоровых и больных людей. Начав воспроизводить этот мета-анализ вручную, мы столкнулись со следующими проблемами:
Получив такие неоднозначные данные, мы решили повторить ещё один мета-анализ, сделанный в этот раз в Европе. В целом картина была схожа с первым мета-анализом, однако большинство проблем возникло не с невозможностью найти исходные статьи, а с тем, что они не имели бесплатного доступа.
По результатам воспроизведённого мета-анализа были выявлены несколько основных существенных проблем:
Первый этап программы – отбор статей по генетической ассоциации изучаемого SNP с заболеванием по ключевым словам из базы данных научной литературы PubMed, которые и будут составлять основу для проведения мета-анализа.
Сначала программа подает особенный запрос на сервер PubMed с помощью API-ключа и получает страницу со статьей, далее программа находит на странице слово Abstract (раздел с выжимкой всего проекта), а уже в этом разделе ключевые слова. Сами слова разделяются на два типа, те, что должны быть в статье и те, что должны отсутствовать. Их и результат первого этапа работы программы (в виде списка отобраных статей) вы можете видеть на рисунке.
Вторым этапом программы является подготовка набора данных (таблицы со всеми данными), который будет использоваться на конечном этапе мета-анализа. Список всех необходимых даных вы можете видеть на рисунке, все данные находятся в разных местах статьи и занесены в нее по разному, поэтому будут использоваться три метода обработки статьи: первый метод - это обработка скриптом обращения к интернет страницам – для данных, которые находятся в статье на определенно заданных местах (название, год, имена ученых), запрос к LLM (GPT) – для данных, которые можно выявить только прочитав текст с точки зрения человека (страны и регионы проведения) и Математическая Модель для нахождения данных в таблице (на основе нейросети)
Заключительный этап обработки – программа на статистическом языке R. R – это язык программирования, созданный специально для статистического анализа данных. Данная программа будет принимать набор данных (таблицу с данными) и выполнять сам мета-анализ, после чего будет выводить результат в виде таблицы и диаграмм, пример которого вы можете видеть на рисунке ниже.