• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
15
Декабрь

Учебный план программы

В рамках программы АДБМ будут реализовываться следующие дисциплины:

Адаптационный курс:


1. Комбинаторика и теория вероятности

В первой части курса студенты ознакомятся с основами перечислительной комбинаторики, простейшими комбинаторными тождествами, деревьями и унициклическими графами, разбиением чисел на слагаемые, реккуррентными соотношениями. Во второй части курса студентам будет представлены основы теории вероятности, которые впоследствии будут использоваться в последующих курсах программы.

 

1. Основные правила комбинаторики: правило сложения, правило умножения. Принцип Дирихле. Примеры.

2. Формула включений и исключений. Примеры.

3. Факториал. Размещения, перестановки и сочетания. Бином Ньютона.

4. Сочетания с повторениями. Полиномиальная формула.

5. Свойства чисел сочетания: доказательство знакопостоянных тождеств. Треугольник Паскаля.

6. Частный случай формулы включений и исключений. Доказательство знакопеременных тождеств.

7. Оценки для факториалов и биномиальных коэффициентов. Формула Стирлинга (б/д).

8. Функция Мёбиуса. Формула обращения Мёбиуса.

9. Применение формулы Мёбиуса для подсчета числа циклических последовательностей.

10. Основы комбинаторики разбиений: примеры задач.

11. Разбиение чисел на слагаемые. Доказательство рекуррентных соотношений.

12. Разбиение чисел на слагаемые. Диаграммная техника.

13. Разбиение чисел на слагаемые. Формула Эйлера. Формула Харди-Рамануджана (б/д).

14. Общая теория рекуррентных соотношений. Простейшие примеры.

15. Числа Фибоначчи: различные модели возникновения задачи, рекуррентное соотношение, теорема о представлении чисел Фибоначчи в виде суммы чисел сочетания.

16. Вероятностная модель эксперимента с конечным числом исходов. Условная вероятность. Формула Байеса. Формула полной вероятности.

17. Случайные величины, заданные на дискретном вероятностном пространстве. Примеры дискретных случайных величин в биологических задачах. Непрерывные случайные величины. Нормальное распределение, распределение хи-квадрат и распределение Стьюдента.

18. Математическое ожидание и дисперсия. Предельные законы теории вероятностей.  Центральная предельная теорема. Совместное распределение случайных величин. Ковариация и корреляция. Геометрический смысл.

 

Литература  

  1. А.М. Райгородский. Комбинаторика и теория вероятностей. - МФТИ, 2012 или Интеллект, 2013
  2. R.L. Graham, M. Grotschel, L. Lovasz. Handbook of combinatorics. Vol 1. 1995. North Holland; 1 edition. 1250 p.
  3. Н.Я. Виленкин, А.Н. Виленкин, П.А. Виленкин. Комбинаторика. — М.: ФИМА, МЦНМО, 2010.
  4. Н. Алон, Дж. Спенсер. Вероятностный метод. — М.: Бином, 2007.
  5. Н.Б. Алфутова, А.В. Устинов. Алгебра и теория чисел. Сборник задач для математических школ. — М.: МЦНМО, 2009.
  6. Дж.А. Андерсон. Дискретная математика и комбинаторика. — М.: Вильямс, 2004.
  7. Р.Л. Грэхем, Д. Кнут, О. Паташник. Конкретная математика. Основание информатики. — М. Мир, 2006.

Базовые курсы направления:


2. Современные методы анализа данных (курс программы «Науки о данных»)

В рамках курса студенты получат общий обзор современных методов анализа и работы с данными, познакомятся с основными понятиями и видами данных. Данный курс станет вводным для последующего подробного практического изучения методов работы с медико-биологическими данными.

В результате освоения курса студент будет знать основные типы задач анализа данных, отличия в подходах математической статистики и анализа данных, уметь производить предварительное преобразование данных и анализ распределений индивидуальных признаков:

1.     Введение в анализ данных: обобщение, взаимосвязь и корреляция, визуализация данных, связанные темы: статистика, data mining, машинное обучение, информационный поиск и анализ текста.

2.    Одномерный анализ. Количественные признаки: распределение и гистограмма. Дополнительная суммаризация: центр и рассеяние. Анализ данных и вероятностные статистические перспективы. Центр метрики Минковского. 

3.    Случаи бинарных и категоризованных признаков. Доверительный интервал бутстрэпом. Перекрёстная валидация.

4.    Двумерный анализ. Линейная регрессия: формулировки.

5.    Случай двух количественных признаков: таблицы сопряженности, получение смысловых отношений, сбор информации о связях с индексами Кетле, коэффициент сопряженности хи-квадрат.

6.    Корреляция и суммаризация для многомерных данных. Меры качества классификатора. Постановка проблемы кластеризации. Обзор методов кластеризаций, подходы к инициализации, интеллектуальные версии методов.

Литература:

1.    B. Mirkin (2011) Core Concepts in Data Analysis: Summarization, Correlation, Visualization, Springer-London.

2.    H. Lohninger (1999) Teach Me Data Analysis, Springer-Verlag, Berlin-New York-Tokyo, 1999. ISBN 3-540-14743-8.

3.    Б.Г. Миркин (2014) Введение в анализ данных: учебник и практикум. Юрайт. ISBN: 978-5-9916-4120-3


3. Современные методы принятия решений: Алгоритмы в биоинформатике

Курс охватывает основные компьютерные алгоритмы для биологических последовательностей: выравнивания, профили, НММ, нейронные сети, поиск подстрок и индексирование строк, вторичные структуры РНК, предсказания генов.

В курсе на примере реальных прикладных задач студентам дается понятие о Байесовском подходе. Причина популярности Байесовского подхода в том, что он способен учесть особенности предметной области и позволяет решать задачи с учетом априорной информации, предоставленной исследователем. Таким образом, при умелом использовании он позволяет сходным образом проводить моделирование с использованием данных в разных естественных науках.

Цели курса:

·    дать подробный обзор основных алгоритмов биоинформатики,

·    описать ограничения и упрощения, которые используются биоинформатиками при анализе геномных данных.

Курс позволит понять, как устроены программы, о которых пойдет речь на следующих других курсах данного модуля.

1.  Задача парного выравнивания. Количество выравниваний. Редакционное расстояние. Алгоритм вычисления редакционного расстояния.

2.  Локальное выравнивание. Алгоритм Смита-Ватермана. Алгоритм выравнивания при общих штрафах за делецию. Алгоритм выравнивания для аффинных штрафов за делецию. Статистика выравниваний. Наибольшее общее слово. Наибольшая общая подпоследовательность. Линейное и логарифмическое поведение веса выравнивания.

3.  Матрицы сопоставления аминокислотных остатков. Серия PAM. Серия BLOSUM. 7. Поиск по банку. Хэширование. FASTA, BLAST, BLAST2, быстрое выравнивание.

4.  Байесова статистика. Априорное и апостериорное распределение. Распределение Дирихле. Оценка правдоподобия, матожидания и апостериорная оценка. Оценка параметров по результатам наблюдения.

5.  HMM. Эмиссионные и переходные вероятности. Примеры HMM. Алгоритм Viterbi. Алгоритм Forward-Backward. Оценка параметров HMM при наличии обучающей выборки. Биологические примеры. Оценка параметров при отсутствии обучающей выборки. Алгоритм Баума-Велча. Оценка качества обучения. Селективность и специфичность.

6.  Профили. Консенсус, Регулярное выражение, Частотный профиль. Энтропия колонки. HMM профиль. Учет возможности вставок и делеций.

7.  Псевдоотсчеты. Правило Лапласа, Учет фоновых частот, Учет матрицы замен.

8.  Взвешивание последовательностей. Метод Герштейна-Сонхаммера-Чотьи. Многогранники Вороного.

9.  Множественное выравнивание. Качество выравнивания. Энтропия, Сумма пар. Динамическое программирование. Прогрессивное выравнивание. ClustalW. Улучшение выравнивания.

10.  Поиск сигналов. Постановка задачи. Алгоритм MEME. Гиббс сэмплер.

11.  Вторичная структура РНК. Элементы вторичной структуры. Энергия вторичной структуры РНК. Комбинаторный метод предсказания вторичной структуры. Алгоритм Нуссинофф. Алгоритм Зукера. Субоптимальные структуры.

12.  Консенсусные вторичные структуры. Метод ковариций. Контекстно-свободные грамматики и вторичная структура РНК.

13.  Предсказание генов в прокариотах. Предсказание генов в эукариотах с помощью HMM. Предсказание генов с помощью сходства.

14.  Чтение и сборка геномов. Исправление ошибок в данных. Сборка геномов, графовые алгоритмы в биоинформатике, графы де Брюйна.

Литература:

  1. Т. Кормен, Ч. Лейзерсон, Р. Ривест. «Алгоритмы, построение и анализ», МЦНМО, Москва, 2005.
  2. Гасфилд Д. «Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология». (2003)
  3. Р. Дурбин, Ш. Эдди, А. Крог, Г. Матчисон «Анализ биологических последовательностей». (2006)

Базовые курсы программы:


4. Прикладная статистика

1. Планирование статистического эксперимента. Эксперимент и наблюдательное исследование. Простая случайная выборка. Отклонения в выборках и их классификация.

2. Описательные статистики.  Медиана, квартили, выборочное среднее, дисперсия. Способы графического изображения выборок: гистограмма, бар-плот, бокс-плот, дот-плот, стем-энд-лив плот и другие. Способы представления двумерных данных.

3. Классические дискретные и непрерывные распределения в статистических задачах (равномерное, биномиальное, геометрическое, гипергеометрическое,  пуассоновское, нормальное, и другие распределения). Распределение пропорций и его связь с биномиальным распределением. Приближение биномиального распределения Пуассоновским. Аппроксимация биномиального распределения нормальным и поправка на непрерывность. Применимость аппроксимаций.

4. Теория точечного оценивания. Несмещенность и эффективность оценок. Среднеквадратичное отклонение. Теорема Штейнера. Математическое ожидание и дисперсия выборочного среднего. Примеры несмещенных и эффективных оценок.

5. Интервальное оценивание. Доверительные интервалы и их интерпретация. Уровень доверия. Стандартная ошибка. Поправка на конечный размер популяции.

6. Интервальное оценивание пропорций и разности пропорций. Оценки для среднего и разности средних в случае известных и неизвестных стандартных отклонений. Распределение Стьюдента и условия его применимости. Случай равных дисперсий и oценка дисперсии объединенной (pooled) выборки.

7. Проверка гипотез. Ошибки первого и второго рода. Уровень значимости и сила теста. Р-значение и его интерпретация. Тестирование гипотез с использованием доверительных интервалов и тестоых статистик. Критические значения. Согласованность гипотез и доверительных интервалов. Биологические задачи.

8. Распределение хи-квадрат. Условия применимости в задачах. Критерий согласия  Пирсона. Таблицы сопряженности. Выборки без возвращения и точный тест Фишера. Биологические задачи.

9. Свойства выборочного стандартного отклонения и интервальное оценивание дисперсии. Проверка гипотез с использованием распределения хи-квадрат. Распределение Фишера. Свойства квантилей. Проверка гипотез с использованием распределения Фишера.

10. Непараметрические тесты. Критерий Уилкоксона. Критерий Манна-Уитни. Критические значения. Применимость параметрических и непараметрических тестов.

11. Модель парной регрессии. Метод наименьших квадратов. Интерпретация коэффициента наклона. Остатки и их свойства. Выбросы и влиятельные значения.

12. Стандартная ошибка коэффициента наклона в парной регрессии. Доверительные интервалы и тестирование гипотез в модели регрессии. Доверительные и прогнозные интервалы.

13. Коэффициент корреляции и коэффициент детерминации, их интерпретация. Разложение суммы квадратов вычетов. Статистические свойства оценок коэффициента корреляции. Применение к анализу дисперсии зависимых выборок.

14. Однофакторный и двухфакторный дисперсионный анализ (ANOVA). Проверка гипотез в дисперсионном анализе. Предположения. Доверительные интервалы для одновременного оценивания разности средних. Разложение суммы квадратов. Непараметрические аналоги дисперсионного анализа: критерий Краскела-Уолиса, тест Данна.

14. Множественная линейная регрессия. Многомерное нормальное распределение и предположения о нормальности. Остаточная дисперсия, коэффициент детерминации, и его интерпретация. Мультиколлинеарность.

15. Обобщённые линейные модели. План анализа, матрица эксперимента, вектор контрастов и функция связи.  Экспоненциальное семейство распределений. Частные случаи факторного анализа и многомерной регрессии. Смешанные модели (ANCOVA).

 

Литература:

1.    Гнеденко Б,В. Курс теории вероятностей. – М: Наука, 1988. – 446 с.         

2.    Венцель Е.С. Теория вероятностей. – М.: Высшая школа, 1999. – 576

3.    Diez, Barr, Cetinkaya-Rundel, Dorazio. Advanced High School Statistics (2015)

4.    Phillip I. Good, James W. Hardin. Common Errors in Statistics (and How to Avoid Them) (2003)

5.    М.Б. Лагутин. Наглядная математическая статистика (2007)


5. Молекулярная эволюция

Курс посвящён общему обзору эволюционного процесса и эволюционным законам в применении к генам, молекулам РНК и белкам.

Цели курса:

·    овладеть информацией об эволюции организмов в прошлом, основных методах эволюционных исследований, внутри- и межпопуляционных особенностях, взаимосвязях между фенотипом молекул и организмов.

·    понять, как эволюцинные процессы связаны с молекулярными механизмами, происходящими в клетке и организме.

 

После окончания курса студенты смогут вести теоретические исследования в области эволюционной геномики.

 

1.  Доказательства эволюции. Достижимость и связность; неоптимальность; невынужденное сходство или гомология; невынужденные иерархии; невынужденные сходства ареалов; эволюционные сценарии и теории.

2.  Основы филогенетики. Филогенетические деревья; реконструирование дивергентной эволюции; реконструирование однородной эволюции; анализ сложных случаев; филогении, не описываемые деревьями; приложения филогенетических реконструкций.

3.  Обобщения, основанные на данных об эволюции в прошлом.  Обобщения, относящиеся к эволюции на разных уровнях: последовательности, молекулы, клетки, организмы, популяции, экосистемы. Обобщения, относящиеся к эволюции разнообразия жизни: разнообразия рецентной жизни, эволюция одной линии; рождения и смерти линий;  независимые анагенезы; коэволюция; эволюция в пространстве. Обобщения, относящиеся к эволюции сложности и адаптаций: генетические и фенетические аспекты адаптивной эволюции; возникновение новых адаптаций; оптимальность результатов эволюции; динамика сложности.

4.  Прямые наблюдения за эволюцией. Эволюция в природе: непрерывные серии ископаемых; локальные адаптации; быстрая эволюция в естественных и измененных условиях. Эволюция домашних животных и растений. Одомашнивание, возникновение новых фенотипов и разнообразия при одомашнивании; цена одомашнивания. Эволюционные эксперименты: эволюция популяций в неволе; искусственный отбор; эволюция при ослабленном отборе; экспериментальное видообразование. Эволюция патогенов: возникновение новых патогенов; адаптации патогенов к иммунному ответу и к антибиотикам; эволюция раковых клеток.

5.  Популяции и подходы к их изучению. Популяции при апомиксисе и амфимиксисе; границы между популяциями; особенности популяционной биологии. Популяции на ландшафтах приспособленности: линейные ландшафты и потенциал приспособленности; эпистаз; формы отбора; ландшафты, зависящие от состояния популяции; действительный и кажущийся отбор. Описание и изучение внутрипопуляционной изменчивости: качественны признаки; количественные и сложные признаки; описание изменчивой популяции; пространство состояний популяции; выборочные оценки. Динамические модели популяций: структура динамической модели; полное и качественное исследование динамической модели; прямая и обратная задачи динамики; построение моделей микроэволюции.

6.  Внутрипопуляционная изменчивость. Менделевские признаки: классификация и изменчивость признаков на уровне ДНК; ассоциации между генетическими признаками; фенотипические проявления генотипических признаков. Многофакторная изменчивость: распределения фенотипических признаков; наследуемость на уровне фенотипов; компоненты дисперсии фенотипов; изменчивость,наследуемость и способность к эволюции в природных популяциях. Отображения генотипов в фенотипы. Локусы, отвечающие за изменчивость фенотипов и их поиск; генетические основы фенотипической изменчивости; эпистаз.

7.  Факторы микроэволюции. Мутационный процесс: механизмы, скорости и эффекты; мутационное равновесия; ожидание мутации. Отбор: механизмы; измерения отбора; генетический груз и дисперися относительной приспособленности; эволюция под исключительным действием отбора; отбор на количественный признак. Размножение:  механизмы; расщепление и закон Харди-Вайнберга; рекомбинация и ассоциации между локусами; неслучайный подбор гамет. Популяционная структура: возрастная структура; пространственная структура. Дрейф: механизмы; эффективная численность популяции;  влияние дрейфа на частоты генотипов; генеалогии аллелей и коалесценция.

8.  Теория микроэволюции. Отбор, вызывающий эволюцию: полное аллельное замещение; одновременные аллельные замещения; груз запаздывания; аллельные замещения в пространстве; фенотипический подход. Отбор, препятствующий эволюции: равновесие мутации-отбор; балансирующий отбор; поддержание многофакторной изменчивости. Слабый отбор:  динамика частоты аллеля под слабым отбором; равновесия между мутационным процессом, отбором и дрейфом; слабый отбор во множественных сайтах. Обратные задачи: изучение положительного, отрицательного и балансирующего отбора; изучения других факторов микроэволюции.

9.  Микроэволюция в природе. Изменчивость и отбор: общая сила отбора и типы изменчивости; положительный отбор и аллельные замещения; отрицательный отбор против безусловно вредных аллелей; эпистаз в отборе против вредных аллелей; эпистаз знаков и многофакторная изменчивость; балансирующий отбор; нейтральная и почти нейтральная изменчивость. Закономерности аллельных замещений: параметры отдельных замещений; частоты замещений; нейтральная эволюция.

 

Литература:

1.  J.H. Gillespie. Population genetics: a concise guide. The Johns Hopkins University Press, 1998.

2.  D. Graur, W.-H.Li. Fundamentals of molecular evolution. Fundamentals of molecular evolution, 2000.

3.  D.L. Hartl, A.G.Clark. Principles of population genetics. Sinauer Associates, Inc., 1997.

4.  B. Charlesworth and D. Charlesworth. Elements of evolutionary genetics. Roberts and Company Publishers, 2010.

5.  M. Lynch. The origins of genome architecture. Sinauer Associates, Inc., 2007.

6.  J. Wakeley. Coalescent theory: an introduction. Roberts and Company Publishers, 2009.

7.  М.Кимура. Молекулярная эволюция: теория нейтральности. Москва, «Мир», 1985.

Дж. Мэйнард Смит. Эволюция полового размножения. Москва, «Мир», 1981.

6. Программирование на языке R

Язык R — современный язык программирования для статистического анализа данных. R — векторизованный язык, это позволяет работать с большим набором данных, как с одним числом. Одним из больших достоинств языка является возможность легко строить красивые графики. В R присутствует большое количество встроенных функций для статистического анализа данных, а также большое количество дополнительных пакетов в открытом доступе для более специализированных задач.

 

Цели курса:

·      знакомство студентов с базовым синтаксисом языка, линейными моделями, кластеризацией, а также с некоторыми специальными возможностями для решения биоинформатических задач,

·      научить рисовать информативные графики для представления результатов,

·      рассказать, какие бывают задачи и данные в биоинформатике и познакомить с пакетами Bioconductor, которые позволяют удобно работать с геномными данными.

 

Полученных во время курса знаний будет достаточно для того чтобы решать задачи по статистике, появляющиеся во время освоения других курсов модуля.

 

1.  Введение. Знакомство с R-Studio. R: текстовый, интерактивный, статистический пакет и язык программирования. Синтаксис R: типы данных, циклы, условия, функции. TRUE, FALSE — логические константы. NA — отсутствие данных. NaN — not a number, Inf — бесконечность. NULL — пустой объект.

2.  Вектора — наборы данных одного типа. Типы: logical, integer, double (numeric), character, complex, raw. Приведение типов. Факторы, которые используются для хранения информации о категории, у которой на данный момент нет представителей.

3.  Списки, содержащие данные любых типов. Атрибуты объектов. Получение элементов массива. Получение элементов списка. Матрицы. Обращение к элементам многомерных массивов. Список векторов.

4.  Операторы: арифметические, логические. Циклы и условные выражения. Функции. Функции apply и sweep. Объекто-ориентированное программирование и классы в R.

5.  Ввод и вывод. Факторы, работа с файлами.

6.  Пакеты: поиск, уставновка и использование. Пакеты Bioconductor, ggplot/grid.

7.  4 графических системы R: base, grid, lattice, ggplot2. Функция plot. Data frames. Графические параметры. Линии, символы. Цвета. Добавление элементов на графики. Аннотация графиков: legend, axis. Прочие графические параметры и функция par. Несколько графиков на одной странице. Гистограммы, плотность. Круговые и столбчатые диаграммы. Сглаживание кривых.

8.  Обработка данных RNA-seq, дифференциальная экспрессия генов, геномные интервалы. Набор пакетов bioconductoR.

 

Литература:

1.      Adler. R in a Nutshell. A Desktop Quick Reference (2nd ed., 2012)

2.      Teetor. R Cookbook (2011)

3.      R Reference Card byTom Short. 


7. Анализ данных в биологии и медицине

Данный курс посвящен обработке и моделированию данных биологических и медицинских экспериментов, освоению задач оптимизации, регрессий, сплайнам и отбору признаков.

После завершения курса студенты смогут учитывать особенности биологических типов данных при анализе и интерпретации набора данных.

 

1.  Введение: Необходимые определения и понятия из статистики. Классы задач анализа данных. Необходимый программный инструментарий.

2.  Оптимизация: Задача оптимизации. Основные алгоритмы. Учет ограничений. Условия Караша-Куна-Такера.

3.  Линейные модели. Оценка МНК. Регуляризация: ридж, лассо, байесовская линейная регрессия. Обобщенные линейные модели.

4.  Сплайны. Локальные модели. Решающие деревья. Ансамбли.

5.  Глубокое обучение: Искуственные нейронные сети.  Автоэнкодеры на основе искуственных нейронных сетей. Сверточные, рекурентные сети.

6.  Классификация: Байесовская классификация. SVM.

7.  Классификация: Adaboost. Случайные леса. Attention cascade. Классификация текстов.

8.  Кластеризация: K-means. Иерархиеская кластеризация. Расстояния.

9.  Снижение размерности: PCA. Kernel PCA. MDS. Isomap. LLE. ICA.

10.          Отбор признаков и меры зависимости: Кореляция пирсона, спирмена, взаимная информация. Скрининг. Индексы соболя.

Литература:
1. Gentleman, Carey, Huber, Irizarry, Dudoit. Bioinformatics and Computational Biology Solutions Using R and Bioconductor. (2005)  
2. А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод Методы и модели анализа данных: OLAP и Data Mining (+ CD-ROM)

3. Bishop. C, Pattern Recognition and Machine Learning (2006)
4. Hastie, Tibshirani, Freedman, The Elements of Statistical Learning (2009)


8. Введение в молекулярную биологию

Курс посвящен введению в биологию, химию и биохимию, рассматривает такие темы, как матричные процессы, ДНК и РНК, мутации, генетические молекулерные механизмы, основам генетики, строения клетки, генной инженерии и медицинской геномики.

Цели курса:

·        познакомить с основными понятиями молекулярной и клеточной биологии, которые будут использоваться в последующих курсах данной программы.

·        дать общую картину достижений и проблем современной молекулярной биологии.

Курс позволит составить остальные курсы модуля в единую и стройную систему знаний.

 

1.      Доказательства генетической роли нуклеиновых кислот. Хронология открытий, подготовивших создание Уотсоном и Криком модели двойной спирали ДНК.

2.      Нуклеозид, нуклеотид, полинуклеотид. Нерегулярные полимеры. Принципы строения двойной спирали ДНК. Виды ДНК. Параметры В-, А- и Z-форм ДНК. Виды РНК. Их роль в клетке. Функции ДНК. Информационная емкость.

3.      Классификация аминокислот. Первичная и вторичная структура белка. Третичная и четвертичная структура белка. Глобулярные и фибриллярные белки. Денатурация и ренатурация белков. Фолдинг белков. Шапероны. Шаперонины. Прионы. Основные биологические функции белков.

4.      Принципиальное строение биологической мембраны. Генетический код.

5.      Транскрипция у прокариот. Принципы транскрипции. Субъединичный состав РНК-полимеразы E.coli. Holo- и Core- фермент.  Понятие об опероне. Особенности структуры промоторов у прокариот. Этапы транскрипции у прокариот. Регуляция транскрипции у бактерий.  Негативная индукция. Позитивная индукция. Негативная репрессия. Позитивная репрессия. Аттенуация в регуляции экспрессии  триптофанового оперона E.coli.

6.      Особенности транскрипции у эукариот. Множественность и специфичность РНК-полимераз эукариот. Понятие об экзонах и интронах. Cis-элементы транскрипции. Понятие об энхансерах . Trans-факторы транскрипции. Образование инициаторного комплекса транскрипции с участием РНК-полимеразы II.

7.      Процессинг mРНК эукариот. Кепирование. Полиаденилирование. Сплайсинг. Редактирование. Различные механизмы сплайсинга. Автосплайсинг. Trans-сплайсинг. Альтернативный сплайсинг.

8.      Строение иммуноглобулинов, их классификация и функции. Переключение классов иммуноглобулинов. Источники разнообразия антител. V-J рекомбинации при перестройке генов легких цепей иммуноглобулинов. V-D-J рекомбинации при перестройке генов тяжелых цепей иммуноглобулинов.

9.      Трансляция. Структура tРНК. Рекогниция. Аминоацилирование tРНК. Структура рибосом про- и эукариот. Центры рибосом E.coli. Образование инициаторного комплекса трансляции у прокариот. Этапы трансляции у прокариот. Белковые факторы трансляции. Регуляция трансляции на примере фага MS2. Образование rРНК и белков рибосом у E.coli. Образование рибосом у эукариот. Понятие о ядрышке.

10.   Репликация ДНК. Основные принципы и механизмы у про- и эукариот. Ферментативная система синтеза ДНК in vitro. Активирование ДНК. ДНК-полимераза I из E.coli. Роль 3'-5' и 5'-3' гидролитических  активностей. Схема прерывистой антипараллельной репликации Оказаки. Сравнительная характеристика ДНК-полимераз I, II и III(core) из E.coli. ДНК-полимераза III*, holo-фермент. SSB. Геликазы. Принципы работы и биологические функции топоизомераз. Современная схема репликации ДНК E.coli. Репликация ДНК аденовируса человека. Репликация митохондриальной ДНК млекопитающих. Особенности репликации ядерных ДНК эукариот. Полирепликонность.

11.   Общая характеристика гистонов. Нуклеосомный, супербидный, петлевой уровни компактизации ДНК эукариот. Метафазная хромосома.

12.   Классификация мобильных генетических элементов по механизму перемещения. Вирус иммунодефицита человека: структура провируса, белки, кодируемые вирусом. Особенности ретровирусоподобных (LTR-содержащих) ретротранспозонов Механизм обратной транскрипции ретровирусов и LTR – содержащих ретротранспозонов. Ретропозоны, не содержащие LTR (LINE и SINE элементы). Особенности организации ДНК-транспозонов. Примеры про- и эукариотических ДНК-транспозонов. Механизм интеграции ДНК-транспозонов в геном. Эффекты встройки мобильных элементов. Значение мобильных элементов в эволюции.

13.   Методы молекулярной и клеточной биологии. Микроскопия видимого света, флюоресцентная, конфокальная сканирующая. Методы окрашивания: красители, антитела, конъюгированные с флюоресцентными группами, рекомбинантные белки, соединенные с флюоресцирующими белками, гибридизация с флюоресцентным зондом (FISH).

14.   Методы выделения и детекции компонентов. Способы разрушения клеток. Центрифугирование. Ультрацентрифугирование. Хроматография. Гель- фильтрация, гидрофобная, катионо- и анионообменная, аффинная. Ультрафильтрация. Обработка ферментами. Фенольная депротеинизация. Осаждение нуклеиновых кислот, белков. Гель-электрофорез ДНК и РНК: агарозный и полиакриламидный.

15.   Методы генной инженерии. Вектор. Плазмидные и интегративные вектора. Ферменты и реакции, применяемые в генной инженерии. Эндонуклеазы рестрикции, ДНК-лигаза, полинуклеотид-киназа, щелочная фосфатаза. ДНК- полимеразы. Обратная тарнскриптаза. Полимеразная цепная реакция. Химический синтез ДНК.

16.   Наследственные болезни, общая характеристика. Хромосомные болезни, моногенные болезни, мультифакториальные болезни. Примеры биохимической классификации моногенных заболеваний. Менделирующие признаки человека.

17.   Генетические основы канцерогенеза. Многостадийность опухолевой трансформации. Основные этапы. Понятие онкогена и протоонкогена. Вирусные и клеточные онкогены. Механизмы активации протоонкогенов. Гены-супрессоры опухолеобразования.

Литература:

1.  Сингер М., Берг П. Гены и геномы. Москва, 1998

2.  Уилсон К., Уолкер Дж.. Принципы и методы биохимии и молекулярной биологии, пер. с англ., Бином. Лаборатория знаний, 2013

3.  Э. Рис, М. Стернберг. Введение в молекулярную биологию. Москва. 2002

4.  Б. Албертс Д. Брей Дж. Льюис М. Рэфф К. Робертс Дж. Уотсон.  Молекулярная биология клетки. Мир. 1994

Вариативная часть:


9. Практическая биоинформатика

Курс охватывает базы данных и основные сервисы и программы для обработки биологических последовательностей, а также молекулярную филогению, семейства и домены белков.

Цели курса:

·    научить использовать основные биологические базы данных, в том числе содержащих геномную, структурную и другую информацию, в научно-­исследовательской работе;

·    осладеть базовыми средствами анализа геномной, структурной и другой биологической информации.

Курс развивает ключевые знания и компетенции в биоинформатических задачах и позволит успешно работать с любыми типами биологических данных, которые будут встречаться в следующих курсах модуля.

 

1. Формат записи последовательности, направление от 5’ к 3’, одинаковые буквы для записи ДНК и РНК. Общепринятые однобуквенные обозначения для стандартных азотистых оснований (остатков нуклеозидов и нуклеотидов) и вырожденных позиций в выравниваниях нуклеиновых кислот.

2. Пространственные структуры белков. Визуализация молекул. Внутренности белков и макромолекулярных комплексов. Водородные связи. Подвижность белка.

3. Базы данных о белках: Uniprot — основная БД последовательностей белков; PDB — БД пространственных структур; Proteins и Refseq (белковая) в NCBI; Pubmed – БД публикаций в области наук о живом. Поиск в базах данных.

4. Выравнивание белковых последовательностей. Выравнивание и гомология. Предсказание парных выравниваний. BLAST. PSI-BLAST. Множественное выравнивание. Семейства белковых доменов.

5. Нуклеиновые кислоты, строение и структура. Химическое строение нуклеиновых кислот. A- и В- формы ДНК. Структура РНК. Комплексы ДНК-белок.

6. Нуклеотидные банки данных. Банки-архивы: GenBank, EMBL, DDBJ. Банки ENA, SRA и Trace Archive. Особенности банков-архивов: обмен данными, соответствие одной записи одному эксперименту, экспериментальные границы записей. Формат genbank и embl. Банк RefSeq: соответствие одной записи одной последовательности, естественные границы записей. Банк Genome с последовательностями полных геномов. Методы поиска: SRS, NCBI, ENA, MRS.

7. Пакет EMBOSS. Список программ пакета по категориям. Универсальный формат обращения к последовательностям. Программы infoseq, water, needle, getorf, entret, seqret и их параметры. Файлы-списки.

8. Пакет программ BLAST. Принцип работы алгоритма. Программы пакета BLAST: BLASTN, BLASTP, BLASTX, TBLASTN, TBLASTX, их цели и особенности. Веб-интерфейс на сайте NCBI: список банков, ограничение поиска организмом или таксоном, выбор варианта BLASTN. Виды BLASTN: megablast, discontiguous megablast, blastn, их цели и особенности. Локальный BLAST: индексация банка, удаленный запуск, сравнение двух последовательностей.

9. Геномные браузеры. Типы полиморфизмов: однонуклеотидные замены (SNP), небольшие вставки и делеции (индели), мискросателлиты (короткие тандемные повторы), вариация копийности (CNV), структурные перестройки. Основные геномные браузеры: Ensembl Genome Browsers, NCBI Map Viewer, UCSC Genome Browser. Золотые транскрипты. Имена генов в Ансамбле. Скачивание данных и выравниваний на локальный компьютер с помощью BioMart и UCSC.

10.  Предсказание генов у прокариот. Предсказание генов у эукариот.

11.  Молекулярная филогения. Что такое филогенетическое дерево. Реконструкция филогении. Укоренение и бутстрэп. Реконструкция филогении по нуклеотидным последовательностям. Паралоги.

12.  Функциональные классы белков. Ферменты и метаболические пути. Классификация ферметов (EC). Киотская энциклопедия генов и геномов (KEGG). Геномное окружение. База данных STRING. Функциональная роль гена в подсистеме. GO, SEED. Особенности мембранных белков.

13.  Семейства белков. Эволюционные доманы. Восстановление предкового состояния доменной архитектуры. Профиль семейства последовательностей белков. Поиск по профилю.

 

Литература

1.  Н.П. Шарова, Е.П. Абрамова Повреждение и починка ДНК или «на всякую прореху найдётся заплата» // природа 2004 http://vivovoco.rsl.ru/VV/JOURNAL/NATURE/11_04/REPAIR.HTM

2.  Чемерис А.В., Ахунов Э.Д., Вахитов В.А. «Секвенирование ДНК» http://www.anrb.ru/molgen/chemeris.html

3.  Overview and Concepts C.D.Allis, T.Jenuwein and D.Reinberg Epigenetics. - Cold Spring Harbor (N.Y.), 2007. - Chapter 3, P. 23-61 http://mglinets.narod.ru/slova5/epigenetic.htm

4.  М. Сингер, П. Берг «Гены и геномы»

5.  Мушкамбаров «Молекулярная биология»

6.  Гасфилд Д. «Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология».

Р. Дурбин, Ш. Эдди, А. Крог, Г. Матчисон «Анализ биологических последовательностей»

10. Сравнительная геномика

В курсе будет рассмотрена молекулярная генетика в контексте сравнительного анализа генов и геномов. В частности геном человека, картирование генов и геномов. После завершения курса студенты приобретают способность использовать основные биологические базы данных, в том числе содержащие геномную, структурную и другую информацию, в научно­-исследовательской работе, умеют аннотировать геномы, проводить функциональный анализ генов, связывать генетическую информацию с метаболизмом.

Структура курса:

1. Гомология, деревья, эволюция.

2. SNPs (точечные нуклеотидные полиморфизмы)

3. Функциональная аннотация.

4. Сравнительный анализ последовательностей ДНК.

5. Сравнительная геномика.

6. Негеномные (пост-геномные) данные.

7. Системная биология (сети и модели).

8. Эволюция геномов.

9. Метаболическая реконструкция

10. Анализ регуляторных взаимодействий

 

Литература:

1.    Galperin M.Y., Koonin E.V. Sources of systematic error in functional annotation of genomes: domain rearrangement, non-orthologous gene displacement, and operon disruption. In Silico Biol. 1998. 1: 0007 (http://www.bioinfo.de/isb/1998/01/0007/main.html)

2.    Bork P., Koonin E.V. Predicting functions from protein sequences – where are the bottlenecks. Nature Genetics. 1998. 18: 313-318. •

3.    Galperin M.Y. Conserved ‘hypothetical’ proteins: new hints and new puzzles. Comp. Funct. Genom. 2001. 2: 14-18. •

4.    Osterman A., Overbeek R. Missing genes in metabolic pathways: a comparative genomics approach. Curr. Opin. Chem. Biol. 2003. 7: 238-251.

5.    Siew N., Fischer D. Analysis of singleton ORFans in fully sequenced microbial genomes. Proteins. 2003. 53: 241-251.

6.    Galperin M.Y., Koonin E.V. ‘Conserved hypothetical’ proteins: prioritization of targets for experimental study. Nucleic Acids Rec. 2004. 32: 5452-5463.

7.    Iyer L.M., Aravind L., Bork P., Hofmann K., Mushegian A.R., Zhulin I.B., Koonin E.V. Quod erat demonstrandum? The mystery of experimental calidation of apparently erroneous computational analyses of protein sequences. Genome Biology. 2001. 2: research0051 (http://genomebiology.com/2001/2/12/research/0051) 


12. Биоинформатика для высокопроизводительного секвенирования

Курс охватывает  теоретические основы технологических процессов и алгоритмов, необходимых для анализа данных секвенирования нового поколения.

Цели курса:

·               сформировать у слушателей знания об историческом развитии технологий секвенирования, познакомить с современными методами технологий секвенирования

·               научить определять оптимальные для решаемой задачи технологические базы для целей секвенирования

·               овладеть методами предварительной обработки данных, полученных в ходе высокопроизводительного секвенирования

 

По окончании курса студенты хорошо ориентируются в области секвенирования биологических и медицинских данных и умеют решать базовые задачи анализа данных.

 

1.      Технологии секвенирования. Физические принципы и технологические решения. Характеристика данных: размер выходных данных, длина чтений, парные и цепь­специфичные чтения, частота и типы ошибок, время работы и т.д. Цена. Использование различных платформ для секвенирования.

2.      Препроцессинг данных. Контроль качества. Тримминг, коррекция ошибок секвенирования, нормализация. Сборка геномов de novo (применение графов). Unix (кратко: команды, полезные источники информации).

3.      Данные об эксперименте, необходимые биоинформатику. Платформа, длина чтения, фильтрация данных (адаптеры, качество), последовательности адаптеров и других технических последовательностей, метод фрагментации, геном (ожидаемая длина, GC-состав), транскриптом (качество РНК, способ отбора целевых молекул), длина вставки для парных чтений, возможные источники контаминации.

4.      Секвенирование и сборка геномов de novo. Выбор платформы. Выбор библиотек (длина вставки). Сборка геномов (single­cell секвенирование и сборка, полногеномное выравнивание, поиск блоков синтении). RNA­seq сборка de novo.

5.      Пересеквенирование: когда известен геном. NGS в медицине: экзом и таргетное секвенирование. Картирование чтений: SNP и короткие инделы. Оценка SNP. Введение в раковую геномику: основы, эволюция рака, мутации­ пассажиры и драйверы, анализ функциональных подсистем. Раковая геномика: соматическаие мутации.

6.      Статистический анализ транскриптомных данных. Введение, картирование и подсчёт транскриптомных ридов. Проверка самосогласованности: корреляционная тепловая карта, PCA/MDS, t.test, поправка на множественное тестирование.

7.      Транскриптомика: lm/ANOVA; glm/ANODEV; нормализация. Дифф. экспрессия (cuffdiff, edgeR, DEXseq). Дифф. сплайсинг (cuffdiff, DEXseq, MISO, SAJR).

8.      Транскриптомика: кластеризация­, функциональный анализ, визуализация, машинное обучение.

9.      Метагеномика. Способы анализа метагеномов: методы секвенирования и задачи. Сборка и аннотация метагеномов.

10.   ДНК­-белковые взаимодействия. ChIP­Seq. Экспериментальные методы изучения ДНК-­белковых взаимодействий (до NGS): «Wet­lab» + «dry­lab» методики (обзор). Применения: краткий обзор. «Dry­lab» детали (связывание ТФ): идентификация пиков, поиск мотивов.

11.   Обзор «С» технологий (3C, 4C, 5C, HiC). Стратегии анализа данных (существующие смещения, нормализация и т.п.).

12.   Эпигенетика. Метилом. Анализ ДНКаза I. Модификация гистонов.

 

Литература:

1.             Sultan M., Schulz M.H., Richard H. et al. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome. Science 321(5891):956–960, 2008.

2.             Wang Z., Gerstein M., and Snyder M. RNA-Seq: A revolutionary tool for transcriptomics. Nature Reviews in Genetics 10(1):57–63, 2009

3.             Schmieder, R. and Edwards, R. Quality control and preprocessing of metagenomic datasets. Bioinformatics, 27(6):863–864, 2011

4.             Garber M., Grabherr M.G., Guttman M. et al. Computational methods for transcriptome annotation and quantification using RNA-seq. Nature Methods 8(6):469–477, 2011.

5.             Engström P.G., Steijger T., Sipos B. et al. Systematic evaluation of spliced alignment programs for RNA-seq data. Nat Methods 10(12):1185–1191, 2013.

6.             Compeau P., Pevzner P., and Tesler G. How to apply de Bruijn graphs to genome assembly. Nature Biotechnology 29(11):987–991, 2011.

7.             Surget-Groba Y. and Montoya-Burgos J. Optimization of de novo transcriptome assembly from next-generation sequencing data. Genome Research 20(10):1432–1440, 2010.

8.             Lagos-Quintana M., Rauhut R., Lendeckel W. et al. Identification of novel genes coding for small expressed RNAs. Science 294(5543):853–858, 2001.

9.             Djuranovic S., Nahvi A., and Green R. A parsimonious model for gene regulation by miRNAs. Science 331(6017):550–553, 2011.

10.          Li Y., Zhang Z., Liu F. et al. Performance comparison and evaluation of software tools for microRNA deep-sequencing data analysis. Nucleic Acids Research 40(10):4298–4305, 2012.

11.          P. E. C. Compeau and P. A. Pevzner. Genome Reconstruction: A Puzzle with a Billion Pieces

12.          P.A. Pevzner, H. Tang, and M. Waterman. An Eulerian path approach to DNA fragment assembly. Proceedings of the National Academy of Science of the United States of America, 98:9748-9753, 2001


13. Структурная биоинформатика и моделирование лекарств

Курс дает представление о различных уровнях организации структур биомолекул, знакомит с основными понятиями и инструментами.

Cтуденты, успешно освоившие программу курса получат базовые представления о структурах биополимеров, приобретут навыки работы с биологическими базами данных и инструментами для высопроизводительных вычислений. Смогут создавать свои собственные скриптовые программы на языках Bash и Python для работы со структурами биополимеров. Используя полученные знания, студенты смогут самостоятельно спроектировать биоактивную молекулу (лекарство).

В ходе курса будут затронуты следующие темы:

1.  Аминокислоты, строение белков. Экспериментальные методы определения структур биомолекул: рентгено-структурный анализ, многомерная спектроскопия ядерного магнитного резонанса. Онлайн-банк структур биомолекул Protein Data Bank.

2.  Визуализация и анализ структур биомолекул в PyMol.

3.  Поиск новых биоактивных молекул. Хемоинформатика. Молекулярный докинг.  Пример поиска и оптимизации низкомолекулярных лекарств.

4.  Предсказание белок-белковых и белок-нуклеиновая кислота взаимодействий. Докинг макромолекул. Механизмы узнавания антител.

5.  Фолдинг биополимеров, парадокс Левинталя, нитевая модель.  Моделирование пространственной структуры белков по гомологии. Фреймворк Rosetta. Геймификация научных задач - FoldIt.

6.  Базы данных белковых семейств SCOP, CATH, MMDB. Соревнование CASP.

7.  Молекулярная механика. Силовые поля.

8.  Молекулярная динамика, модификации метода молекулярной динамики: REMD, REST, folding@home.

9.  Строение нуклеиновых кислот. Предсказание вторичной и пространственной структур нуклеиновых кислот. Крупнозернистые модели нуклеиновых кислот. Укладка хроматина.

 

Литература:

1.     Bourne, P.E., and Gu, J. (2009) Structural Bioinformatics (2nd edition), John Wiley & Sons, New York, ISBN 978-0-470-18105-8

2.     Bourne, P.E., and Weissig, H. (2003) Structural Bioinformatics, Wiley ISBN 0-471-20199-5

3.     Leach, Andrew (2001) Molecular Modelling: Principles and Applications (2nd edition), Prentice Hall, ISBN 978-0-582-38210-7
4.     Ханс-Дитер Хельтье, Вольганг Зиппль, Дидье Роньян, Герд Фолькерс. Молекулярное моделирование. Теория и практика. Бином. Лаборатория знаний. (2010) 


14. Системная биология и персонализированная медицина

Курс охватывает взаимосвязи различных уровней организации живого: от молекулярного уровня до уровня популяций, генные сети, моделирование генных сетей метаболизма и регуляции, проблему устойчивости в биологических системах.

Цели курса:

·        овладеть знаниями о биологических процессах и явлениях как о взаимосвязанной системе,

·        научиться конструировать модели биологических систем и проводить их анализ, интегрировать и интерпретировать медицинские данные и гипотезы,

·        овладеть навыками реализации моделей, их решений и анализа, проверки пригодности для решения фундаментальный и прикладных задач биомедицины.

Курс позволит студентам ознакомиться с современными омиксными данными и их практическим использованием в области клинической диагностики, терапии, фармацевтики, экспериментальной биомедицины.

 

1.    Введение в системную биологию. Свойства биологических систем. Моделирование биологических систем. Назначение и адекватность моделей.

2.    Моделирование биохимических систем. Типы моделей биохимических систем. Симуляторы и международные проекты по исследованию метаболизма. Проект ENCODE. COPASI: симулятор биохимической сети.

3.    Моделирование физиологических процессов. Human brain project. Сбор больших данных в области геномики и физиологии. SBML и другие языки описания биологических процессов.

 

4.    Модели экспрессии гена. Типы регуляции. Модели регуляции на уровне транскрипции и трансляции, вывод функции регуляции экспрессии, анализ компонент генной сети. Различные типы динамических моделей регуляции гена.

5.    Компьютерная технология реконструкции и описания генных сетей на основе экспериментальных данных. Cтруктурно-функциональная организация. Кассетная активация и репрессия генов. Положительные и отрицательные обратные связи. Мотивы генных сетей.

6.    Генные сети. Структура, динамика и функция генных сетей.

7.    Омиксные данные и омиксные технологии. Омиксные данные в вирусологии и онкологии.

8.    Способы визуализации омиксных данных.

9.    Одноклеточное секвенирование и перспективы использования в медицине.

10. Метагеномные данные и их использование в медицине. Омиксные данные в борьбе со старением.

 

Литература:

1.  James M. Bower and Hamid Bolouri. Computational Modeling of Genetic and Biochemical Networks. The MIT Press, Cambridge, Massachusetts, London, England

2.  Genetic Variants Modulate Pathogen-Sensing Responses in Human Dendritic Cells. Science 2014

3.  Christine M. Micheel, Sharly J. Nass, and Gilbert S. Omenn, Editors; Committee on the Review of Omics-Based Tests for Predicting Patient Outcomes in Clinical Trials; Board on Health Care Services; Board on Health Sciences Policy; Evolution of Translational Omics:  Lessons Learned and the Path Forward (2012)


15. Медицинская информатика (курс программы «Науки о данных»)

Читается на английском языке.

 

Целью курса является развитие фундаментальных знаний, лежащих в основе концепций, объединяющих компьютерные науки, математику и медицину.  В рамках курса студенты научатся применять практические навыки работы с цифровыми медицинскими данными, смогут разобраться с большим количеством компьютерно-медицинских приложений и программ.

The course is meant to cover the most principal areas of Medical Informatics (MI). It starts with the introductions into the MI field, its history, and its principal goals. We proceed with the model of modern digital hospital and the two major standards it relies on: DICOM and HL7. Since DICOM provides the foundation to the medical imaging, the class will cover the most critical topics of medical digital image acquisition and analysis: tomography (including Radon transform), image enhancement, CAD, medical image compression. HL7 and its applications will be covered as well, with the emphasis on the clinical data integrity and meaningful use. After this point, the class will evolve into the applications of math/IT aimed at developing optimal clinical processes, including data networking, security, resource management, scheduling, modeling (including pandemic models). The class will end with a series of topics dedicated to clinical application development and implementation (including startups).

 

1.    Introduction to Medical Informatics

2.    Standards: Overview and HL7

3.    Standards: DICOM

4.    Making sense of standards

5.    Computed tomography; enhancement

6.    Computer-Aided Diagnostics (CAD)

7.    Networking and teleradiology

8.    Security

9.    Scheduling and queuing

10. Simulation/Modeling in Medicine

11. Clinical software development; medical startups

12. Unusual applications

 

Литература:

1. Oleg S. Pianykh, “Digital Imaging and Communications in Medicine (DICOM): A Practical Introduction and Survival Guide”, Springer Verlag, 2013 (second edition)

2. Fred Trotter, David Uhlman, “Hacking Healthcare: A Guide to Standards, Workflows, and Meaningful Use”, O’Reilly, 2011

3. Oleg S. Pianykh, “Digital Image Quality in Medicine (Understanding Medical Informatics)”, Springer Verlag, 2014