Delivered at:: Faculty of Biology and Biotechnology

Course type:: Compulsory course

When:: 2 year, 3, 4 module

Instructors

Galatenko, Aleksey V.

Nersisyan, Stepan

Полная версия программы учебной дисциплины

Аннотация

Биоинформатика — современное направление на стыке множества наук, в рамках которого биологические процессы и явления исследуются методами прикладной математики, статистики и информатики. Широкому развитию данной науки во многом поспособствовало появление биологических экспериментов, ручная обработка результатов которых не представляется возможной в виду огромного объема получаемых данных. В рамках первой части курса слушатели узнают о задаче выравнивания нуклеотидных и аминокислотных последовательностей и методах ее решения. Алгоритмы из данной области являются мощным инструментом как для эволюционной биологии и филогенетики, так и для решения частых технических задач (например, подбор праймеров для ПЦР). Во второй части курса слушатели узнают о способах обработки данных секвенирования нового поколения, на сегодняшний день являющегося одним из самых широко используемых методов. Будут разобраны идеи алгоритмов сборки геномов и картирования прочтений, а особое внимание будет уделено данным секвенирования РНК. Последняя часть курса будет посвящена алгоритмам машинного обучения и их применению в биомедицине (с акцентом на данные транскриптомного анализа).

Цель освоения дисциплины

Обучить слушателей работать с нуклеотидными и аминокислотными последовательностями: работать с основными биологическими банками данных, проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ), производить оценку сложности алгоритмов.
Обучить слушателей алгоритмам и методам сборки генома и картирования прочтений, полученных методами секвенирования нового поколения. Обучить навыкам обработки данных секвенирования РНК (от исходных данных до нормализованной матрицы экспрессии).
Научить слушателей находить дифференциально экспрессированные гены после секвенирования РНК, проводить аннотацию и интерпретацию результатов, строить сети ко-экспрессии генов, визуализировать многомерные наборы данных.
Обучить слушателей знаниям и навыкам построения моделей машинного обучения, включая модели классификации, регрессии и кластеризации. Особое внимание уделяется специфике работы с массивами биологических данных (экспрессии РНК, нуклеотидные и аминокислотные последовательности).

Планируемые результаты обучения

Понимание методов сборки генома и картирования прочтений. Умение проиндексировать геном и картировать на него прочтения из FASTQ файла. Умение оценить количество прочтений, картированных на ген, с помощью таких программ как HTSeq и Salmon. Понимание и умение пользоваться методом нормализации данных секвенирования РНК DESeq2.
Умение находить дифференциально экспрессированные гены при помощи пакета DESeq2, проводить аннотацию наборов генов по их функциональной принадлежности с помощью сервиса DAVID, строить сети ко-экспрессии генов с использованием корреляционного анализа, проводить двумерную и трехмерную визуализацию матрицы экспрессии генов методами PCA и t-SNE.
Умение проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ). Умения произвести оценку сложности алгоритма.
Умение проводить кластеризацию данных с использованием библиотеки scikit-learn. Применение методов для построения филогенетических деревьев. Умение оценивать качество кластеризации с помощью индекса Рэнда и других статистических показателей.
Умение строить и интерпретировать модели классификации и регрессии с использованием библиотеки scikit-learn, оценивать качество моделей с помощью таких метрик, как TPR, TNR, ROC AUC.

Содержание учебной дисциплины

Выравнивание последовательностей
Анализ данных секвенирования нового поколения
Интерпретация данных секвенирования РНК
Задачи машинного обучения с учителем
Задачи машинного обучения без учителя

Элементы контроля

Экзамен
Домашние задания
Бонусные задачи

Промежуточная аттестация

2021/2022 учебный год 3 модуль
0.2 * Бонусные задачи + 0.4 * Домашние задания + 0.4 * Экзамен
2021/2022 учебный год 4 модуль
0.1 * Бонусные задачи + 0.5 * 2021/2022 учебный год 3 модуль + 0.2 * Экзамен + 0.2 * Домашние задания

Bachelor’s Programme 'Cell and Molecular Biotechnology'

Contacts

Bioinformatics

Instructors

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература