Поиск сложных зависимостей в разнородных данных по старению человека Archived

Description

Группа BioLabs разрабатывает новые алгоритмы и методы анализа данных биологических экспериментов, и работает в тесном сотрудничестве с биологами над различными экспериментами по изучению старения.

Один из проектов группы – это масштабное лонгитюдное исследование связи изменений метилирования ДНК, генной экспрессии и метаболомики в процессе старения человека на выборке из более чем 100 людей.

В рамках первичного анализа экспериментальных данных, было обнаружено, что при разделении по целевому показателю возможно увидеть разницу в данных, начиная с какого-то возраста. В частности, метилирование в CpG Islands растёт с возрастом одинаково для низкого и высокого уровня BMI, а в старшей когорте у людей с высоким BMI метилирование растёт дальше, а у людей с низким BMI падает, или остаётся на прежнем уровне. То есть лишний вес не страшен, пока ты молодой, а потом становится критическим.

Целью стажировки будет поиск всех возможных показателей, которые в молодости не сильно влияют на некоторый целевой показатель, а с возрастом влияние усиливается. Или корреляция сильно отличается между группами по возрасту. Идеально, когда этот целевой показатель ассоциированный с общим состоянием организма.

Основные задачи:

  • Из набора экспериментальных данных выделить показатели, по которым доноров можно разбить на группы с высоким и низким значением показателя
  • Найти показатели, поведение, которых с возрастом меняется
  • Для выбранных показателей изучить из связь метилированием ДНК, оценить есть ли изменения метилирования в группах с низким и высоким значением показателя
  • Для выбранных показателей изучить их связь с экспрессией, данными по метаболомике и протеомике
  • Шаги по обработке данных должны быть оформлены с помощью Jupyter Notebook, Snakemake pipeline, Python/Kotlin и Shell скриптов

По результатам работы над проектом возможно участие в публикации.
Перед собеседованием нужно выполнить тестовое задание, можно сделать его частично, но чем полнее, тем выше шансы на получение стажировки в этом проекте.
Вопросы можно задавать по почте: os@jetbrains.com

Requirements

  • Понимание основ биоинформатики и, в частности, эпигенетики
  • Умение разбираться с англоязычными научными статьями
  • Знание Python, опыт работы с библиотеками Pandas/Numpy, библиотеками визуализации данных
  • Уверенное владение командной строкой Unix
  • Бонусом будет знание Java/Kotlin
  • Бонусом будут знание статистики, опыт разработки вычислительных пайплайнов с использованием Snakemake, опыт работы с библиотеками Plot.ly, Seaborn

Mentors

Oleg Shpynov, Roman Chernyatchik

Contact details

internship@jetbrains.com

Location

Remote

Product/Team

JetBrains Research

Technologies

Python Research