Биоинформатика

Бакалавриат 2020/2021

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Клеточная и молекулярная биотехнология)

Направление: 06.03.01. Биология

Кто читает: Факультет биологии и биотехнологии

Где читается: Факультет биологии и биотехнологии

Когда читается: 2-й курс, 3, 4 модуль

Формат изучения: без онлайн-курса

Преподаватели: Галатенко Алексей Владимирович, Нерсисян Степан Ашотович, Никулин Сергей Вячеславович

Язык: русский

Кредиты: 6

Контактные часы: 96

Дополнительные материалы в LMS Задать вопрос

Аннотация

Биоинформатика — современное направление на стыке множества наук, в рамках которого биологические процессы и явления исследуются методами прикладной математики, статистики и информатики. Широкому развитию данной науки во многом поспособствовало появление биологических экспериментов, ручная обработка результатов которых не представляется возможной в виду огромного объема получаемых данных. В рамках первой части курса слушатели узнают о задаче выравнивания нуклеотидных и аминокислотных последовательностей и методах ее решения. Алгоритмы из данной области являются мощным инструментом как для эволюционной биологии и филогенетики, так и для решения частых технических задач (например, подбор праймеров для ПЦР). Во второй части курса слушатели узнают о способах обработки данных секвенирования нового поколения, на сегодняшний день являющегося одним из самых широко используемых методов. Будут разобраны идеи алгоритмов сборки геномов и картирования прочтений, а особое внимание будет уделено данным секвенирования РНК. Следующая тема курса будет посвящена алгоритмам машинного обучения и их применению в биомедицине (с акцентом на данные транскриптомного анализа). Последняя часть курса будет посвящена работе с данными протеомного анализа.

Цель освоения дисциплины

Обучить слушателей работать с нуклеотидными и аминокислотными последовательностями: работать с основными биологическими банками данных, проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ), производить оценку сложности алгоритмов.
Обучить слушателей алгоритмам и методам сборки генома и картирования прочтений, полученных методами секвенирования нового поколения. Обучить навыкам обработки данных секвенирования РНК (от исходных данных до нормализованной матрицы экспрессии).
Обучить слушателей базовой работе с дискретными и непрерывными случайными величинами и основными инструментами математической статистики (восстановление неизвестных параметров, проверка гипотез).
Научить слушателей находить дифференциально экспрессированные гены после секвенирования РНК, проводить аннотацию и интерпретацию результатов, строить сети ко-экспрессии генов, визуализировать многомерные наборы данных.
Обучить слушателей знаниям и навыкам построения моделей машинного обучения, включая модели классификации, регрессии и кластеризации. Особое внимание уделяется специфике работы с массивами биологических данных (экспрессии РНК, нуклеотидные и аминокислотные последовательности).
Обучить слушателей работать с протеомными данными: извлекать необходимую информацию из баз данных белковых последовательностей и экспрессии белков, обрабатывать первичные масс-спектры, проводить идентификацию белков, оценивать количественное содержание белков, проводить сравнительную оценку экспрессии белков в различных образцах.

Планируемые результаты обучения

Умение проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ). Умения произвести оценку сложности алгоритма.
Понимание методов сборки генома и картирования прочтений. Умение проиндексировать геном и картировать на него прочтения из FASTQ файла. Умение оценить количество прочтений, картированных на ген, с помощью таких программ как HTSeq и Salmon. Понимание и умение пользоваться методом нормализации данных секвенирования РНК DESeq2.
Понимание механизма работы со случайными величинами и распределениями. Умение вычислять моменты случайных величин в дискретном и непрерывном случаях. Базовые навыки в математической статистике: восстановление неизвестных параметров методом максимального правдоподобия, проверка простейших гипотез (биномиальный тест, критерий хи квадрат, критерий Стьюдента).
Умение находить дифференциально экспрессированные гены при помощи пакета DESeq2, проводить аннотацию наборов генов по их функциональной принадлежности с помощью сервиса DAVID, строить сети ко-экспрессии генов с использованием корреляционного анализа, проводить двумерную и трехмерную визуализацию матрицы экспрессии генов методами PCA и t-SNE.
Умение строить и интерпретировать модели классификации и регрессии с использованием библиотеки scikit-learn, оценивать качество моделей с помощью таких метрик, как TPR, TNR, ROC AUC.
Умение проводить кластеризацию данных с использованием библиотеки scikit-learn. Применение методов для построения филогенетических деревьев. Умение оценивать качество кластеризации с помощью индекса Рэнда и других статистических показателей.
Умение извлекать необходимую информацию из протеомных баз данных, умение проводить идентификацию и количественное определение содержания белков в образце при помощи программного обеспечения MaxQuant, умение проводить дальнейшую обработку полученных результатов при помощи программного обеспечения Perseus.

Содержание учебной дисциплины

Выравнивание последовательностей
В рамках данной темы излагается постановка задачи о выравнивании последовательностей и ее различные вариации (парное, множественное, глобальное, локальное), классические алгоритмы Нидлмана-Вунша и Смита-Ватермана, примеры эвристических оптимизаций (BLAST). Особое внимание уделяется вопросам сложности алгоритмов.
Анализ данных секвенирования нового поколения
Рассматриваются различные процедуры по сборке и обработке данных секвенирования нового поколения: сборка геномов de novo, алгоритмы картирования прочтений на референсный геном, обработка данных секвенирования РНК, включая методы оценки экспрессии генов и различные техники нормализации.
Основы теории вероятностей и математической статистики
Излагаются начальные сведения из теории вероятностей (дискретные и непрерывные случайные величины, их распределения, моменты) и математической статистики (выборки, оценки параметров теоретического распределения, выборочные моменты, проверка гипотез).
Интерпретация данных секвенирования РНК
Будут изложены постановка задачи о поиске дифференциально экспрессированных транскриптов и техники ее решения, анализ обогащения набора генов по функциональной принадлежности, корреляционный анализ и графовые методы, методы понижения размерности матрицы экспрессии транскриптов.
Задачи машинного обучения с учителем
Излагаются основные подходы и методы решения задачи классификации (метрические классификаторы, линейные классификаторы, деревья принятия решений и их ансамбли) и регрессии (метод наименьших квадратов, различные методики регуляризации). Примеры приложений к биомедицине: построение диагностических и прогностических моделей по данным секвенирования РНК.
Задачи машинного обучения без учителя
Данная тема посвящена задаче кластеризации. Будут рассмотрены методы иерархической кластеризации и разделения смесей распределений. Отдельное внимание уделяется использованию иерархической кластеризации в задачах филогенетического анализа.
Протеомика
Излагаются методы проведения протеомного анализа, методы идентификации белков и методы количественного определения экспрессии белков.

Элементы контроля

Экзамен
Домашние задания
Коллоквиум
Бонусные задачи

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
Первоначальный вариант оценки рассчитывается с помощью линейной формулы вида 0.5 * Домашние задания + 0.2 * Коллоквиум + 0.3 * Экзамен + 0.3 * Бонусные задачи (максимальным значением является 13). Переход к десятибалльной шкале осуществляется вычислением минимума из линейной оценки и 10 (если значение превышает 10, то финальной оценкой является 10, иначе берется первоначальная линейная оценка).

Программа дисциплины