• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Биоинформатика

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Клеточная и молекулярная биотехнология)
Направление: 06.03.01. Биология
Когда читается: 2-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Преподаватели: Галатенко Алексей Владимирович, Нерсисян Степан Ашотович, Никулин Сергей Вячеславович
Язык: русский
Кредиты: 6
Контактные часы: 96

Программа дисциплины

Аннотация

Биоинформатика — современное направление на стыке множества наук, в рамках которого биологические процессы и явления исследуются методами прикладной математики, статистики и информатики. Широкому развитию данной науки во многом поспособствовало появление биологических экспериментов, ручная обработка результатов которых не представляется возможной в виду огромного объема получаемых данных. В рамках первой части курса слушатели узнают о задаче выравнивания нуклеотидных и аминокислотных последовательностей и методах ее решения. Алгоритмы из данной области являются мощным инструментом как для эволюционной биологии и филогенетики, так и для решения частых технических задач (например, подбор праймеров для ПЦР). Во второй части курса слушатели узнают о способах обработки данных секвенирования нового поколения, на сегодняшний день являющегося одним из самых широко используемых методов. Будут разобраны идеи алгоритмов сборки геномов и картирования прочтений, а особое внимание будет уделено данным секвенирования РНК. Следующая тема курса будет посвящена алгоритмам машинного обучения и их применению в биомедицине (с акцентом на данные транскриптомного анализа). Последняя часть курса будет посвящена работе с данными протеомного анализа.
Цель освоения дисциплины

Цель освоения дисциплины

  • Обучить слушателей работать с нуклеотидными и аминокислотными последовательностями: работать с основными биологическими банками данных, проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ), производить оценку сложности алгоритмов.
  • Обучить слушателей алгоритмам и методам сборки генома и картирования прочтений, полученных методами секвенирования нового поколения. Обучить навыкам обработки данных секвенирования РНК (от исходных данных до нормализованной матрицы экспрессии).
  • Обучить слушателей базовой работе с дискретными и непрерывными случайными величинами и основными инструментами математической статистики (восстановление неизвестных параметров, проверка гипотез).
  • Научить слушателей находить дифференциально экспрессированные гены после секвенирования РНК, проводить аннотацию и интерпретацию результатов, строить сети ко-экспрессии генов, визуализировать многомерные наборы данных.
  • Обучить слушателей знаниям и навыкам построения моделей машинного обучения, включая модели классификации, регрессии и кластеризации. Особое внимание уделяется специфике работы с массивами биологических данных (экспрессии РНК, нуклеотидные и аминокислотные последовательности).
  • Обучить слушателей работать с протеомными данными: извлекать необходимую информацию из баз данных белковых последовательностей и экспрессии белков, обрабатывать первичные масс-спектры, проводить идентификацию белков, оценивать количественное содержание белков, проводить сравнительную оценку экспрессии белков в различных образцах.
Планируемые результаты обучения

Планируемые результаты обучения

  • Умение проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ). Умения произвести оценку сложности алгоритма.
  • Понимание методов сборки генома и картирования прочтений. Умение проиндексировать геном и картировать на него прочтения из FASTQ файла. Умение оценить количество прочтений, картированных на ген, с помощью таких программ как HTSeq и Salmon. Понимание и умение пользоваться методом нормализации данных секвенирования РНК DESeq2.
  • Понимание механизма работы со случайными величинами и распределениями. Умение вычислять моменты случайных величин в дискретном и непрерывном случаях. Базовые навыки в математической статистике: восстановление неизвестных параметров методом максимального правдоподобия, проверка простейших гипотез (биномиальный тест, критерий хи квадрат, критерий Стьюдента).
  • Умение находить дифференциально экспрессированные гены при помощи пакета DESeq2, проводить аннотацию наборов генов по их функциональной принадлежности с помощью сервиса DAVID, строить сети ко-экспрессии генов с использованием корреляционного анализа, проводить двумерную и трехмерную визуализацию матрицы экспрессии генов методами PCA и t-SNE.
  • Умение строить и интерпретировать модели классификации и регрессии с использованием библиотеки scikit-learn, оценивать качество моделей с помощью таких метрик, как TPR, TNR, ROC AUC.
  • Умение проводить кластеризацию данных с использованием библиотеки scikit-learn. Применение методов для построения филогенетических деревьев. Умение оценивать качество кластеризации с помощью индекса Рэнда и других статистических показателей.
  • Умение извлекать необходимую информацию из протеомных баз данных, умение проводить идентификацию и количественное определение содержания белков в образце при помощи программного обеспечения MaxQuant, умение проводить дальнейшую обработку полученных результатов при помощи программного обеспечения Perseus.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Выравнивание последовательностей
    В рамках данной темы излагается постановка задачи о выравнивании последовательностей и ее различные вариации (парное, множественное, глобальное, локальное), классические алгоритмы Нидлмана-Вунша и Смита-Ватермана, примеры эвристических оптимизаций (BLAST). Особое внимание уделяется вопросам сложности алгоритмов.
  • Анализ данных секвенирования нового поколения
    Рассматриваются различные процедуры по сборке и обработке данных секвенирования нового поколения: сборка геномов de novo, алгоритмы картирования прочтений на референсный геном, обработка данных секвенирования РНК, включая методы оценки экспрессии генов и различные техники нормализации.
  • Основы теории вероятностей и математической статистики
    Излагаются начальные сведения из теории вероятностей (дискретные и непрерывные случайные величины, их распределения, моменты) и математической статистики (выборки, оценки параметров теоретического распределения, выборочные моменты, проверка гипотез).
  • Интерпретация данных секвенирования РНК
    Будут изложены постановка задачи о поиске дифференциально экспрессированных транскриптов и техники ее решения, анализ обогащения набора генов по функциональной принадлежности, корреляционный анализ и графовые методы, методы понижения размерности матрицы экспрессии транскриптов.
  • Задачи машинного обучения с учителем
    Излагаются основные подходы и методы решения задачи классификации (метрические классификаторы, линейные классификаторы, деревья принятия решений и их ансамбли) и регрессии (метод наименьших квадратов, различные методики регуляризации). Примеры приложений к биомедицине: построение диагностических и прогностических моделей по данным секвенирования РНК.
  • Задачи машинного обучения без учителя
    Данная тема посвящена задаче кластеризации. Будут рассмотрены методы иерархической кластеризации и разделения смесей распределений. Отдельное внимание уделяется использованию иерархической кластеризации в задачах филогенетического анализа.
  • Протеомика
    Излагаются методы проведения протеомного анализа, методы идентификации белков и методы количественного определения экспрессии белков.
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Домашние задания
  • неблокирующий Коллоквиум
  • неблокирующий Бонусные задачи
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    Первоначальный вариант оценки рассчитывается с помощью линейной формулы вида 0.5 * Домашние задания + 0.2 * Коллоквиум + 0.3 * Экзамен + 0.3 * Бонусные задачи (максимальным значением является 13). Переход к десятибалльной шкале осуществляется вычислением минимума из линейной оценки и 10 (если значение превышает 10, то финальной оценкой является 10, иначе берется первоначальная линейная оценка).
Список литературы

Список литературы

Рекомендуемая основная литература

  • Dennis, G., Sherman, B. T., Hosack, D. A., Yang, J., Gao, W., Lane, H. C., & Lempicki, R. A. (2003). DAVID: Database for Annotation, Visualization, and Integrated Discovery. https://doi.org/10.1186/gb-2003-4-5-p3
  • Horvath Steve, & Langfelder Peter. (2008). WGCNA: an R package for weighted correlation network analysis. https://doi.org/10.1186/1471-2105-9-559
  • Lesk, A. M. (2012). Introduction to bioinformatics ; Bioinformatics.
  • Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. https://doi.org/10.1186/s13059-014-0550-8
  • Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
  • Rocha, M., & Ferreira, P. G. (2018). Bioinformatics Algorithms : Design and Implementation in Python (Vol. First edition). London: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1572286
  • Введение в машинное обучение с помощью Python : руководство для специалистов по работе с данными, Мюллер, А., 2018
  • Кластерный анализ, Мандель, И. Д., 1988
  • Наглядная математическая статистика : учеб. пособие для вузов, Лагутин, М. Б., 2019

Рекомендуемая дополнительная литература

  • Statistical bioinformatics with R, Mathur, S. K., 2010