• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Роль вторичных структур ДНК в функционировании генома

Приоритетные направления развития: компьютерно-математическое
2018

Цель работы

Целью исследований НУЛ биоинформатики является изучение роли вторичных структур ДНК в функционировании генома. В первую очередь исследования направлены на изучение пространственной организации структуры хроматина и роли вторичных структур ДНК в регуляции расположения нуклеосом, изучение связи вторичных структур ДНК с эпигенетическими маркерами, изучение ДНК-белковых взаимодействий, изучение роли вторичных структур РНК в транспозонах и организации геномов бактерий.

Используемые методы

Исследование ведется компьютерными методами: с помощью моделей машинного обучения, в том числе глубинного обучения, методами интеллектуального анализа (Data Mining),  и другими технологиями и методами анализа данных.

Эмпирическая база исследования

Последовательности геномов разных видов, данные экспериментов NGS, в том числе данные открытых международных консорциумных проектов The Roadmap Epigenomics, Encode, TCGA, ICGC, а также данные NGS, полученные в лабораториях Сколтеха; база данных ДНК-белковых взаимодействий NPIDB. 

Результаты работы

В результате реализации проекта в 2018 году были получены следующие результаты:

  • Были найдены паттерны взаимного расположения нуклеосом и вторичных структур ДНК (такие как левозакрученная форма Z-ДНК, триплексная форма H-ДНК, G-квадруплексы и участки дестабилизации дуплекса, вызванного напражением (SIDD)) в геноме мыши, используя экспериментальные данные технологий NGS. Обнаруженные в паттернах ДНК-структуры являются потенциальными нуклеосомными барьерами.
  • Были построены модели машинного обучения для распознавания паттернов нуклеосом на основе информации о структуре ДНК. Обнаружение данного типа паттернов в разных типах ткани позволит выявить механизмы регуляции нуклеосом посредством вторичных структур ДНК.
  • Была построена и протестирована двунаправленная рекуррентная нейронная сеть для предсказания трехмерной структуры хроматина, а именно границ топологически-ассоциированных доменов генома дрозофилы на основе данных об эпигенетических маркерах и мест связывания хроматиновых белков. Данный результат имеет значение для понимания роли эпигенетических маркеров в организации трехмерной структуры хроматина.
  • Была разработана кроссплатформенная программа “Genomic Pattern Recognition System”, запускаемая в браузере любой операционной системы, с пользовательским графическим интерфейсом, которая принимает на вход два файла геномной аннотации в формате .bed, визуализирует распределение функциональных элементов в виде плотностей на уровне хромосомы и осуществляет поиск паттернов ассоциации между двумя исследуемыми геномными элементами. Найденные паттерны визуализируются, и информация об их расположении выдается в виде списка. Данная программа предназначается для решения широкого класса биоиформатических задач поиска паттернов ассоциации между различными функциональными аннотациями генома.o Были созданы модули для выявления и визуализации консервативных структурных особенностей ДНК-белковых комплексов в пределах семейств и подсемейств базы данных NPIDB. Этот результат важен для изучения ДНК-белковых взаимодействий.
  • Были собраны и проанализирвоаны пан-геномы и кор-геномы бактерий рода Bacillaceae; построены ортологические ряды и филогенетические деревья. Данные результаты важны для понимания эволюции и организации геномов бактерий.
  • Были исследованы структурные свойства 3`-конца транспозонов L1 и Alu структур стебель-петля в геноме человека  посредством моделей машинного обучения. Было построено два типа моделей с использованием двух различных наборов признаков: взятых из информации о последовательностях и из информации о структуре. Были обнаружены наиболее значимые структурные характеристики, которые, вероятно, играют роль в узнавании белком транспозона. Полученные результаты важны для понимания механизмов транспозиции.

 

Публикации по проекту:


Mazin P., Gelfand M. S. Cooption of heat shock regulatory system for anhydrobiosis in the sleeping chironomid Polypedilum vanderplanki // Proceedings of the National Academy of Sciences of the United States of America. 2018. P. E2477-E2486. doi
Rusinov I. S., Ershova A. S., Karyagina A. S., Спирин С. А., Alexeevski A. V. Avoidance of recognition sites of restriction-modification systems is a widespread but not universal anti-restriction strategy of prokaryotic viruses // BMC Genomics. 2018. Vol. 19. No. 885. P. 1-11. doi
Penzar D., Krivozubov M., Спирин С. А. PQ, a new program for phylogeny reconstruction // BMC Bioinformatics. 2018. Vol. 19. No. 374. P. 1-14. doi
Маткаримов О. О., Поливода Д. Э., Попцова М. С. Поиск паттернов ассоциации между функциональными элементами генома, in: Доклады Международной конференции "Математическая биология и биоинформатика". Пущино : Государственное учреждение Институт математических проблем биологии РАН, 2018. С. 1-3. 
Tevanyan E., Poptsova M. Recognizing Patterns of Nucleosome and DNA Structures Positioning, in: Сборник трудов 42-й междисциплинарной школы-конференции ИППИ РАН "Информационные технологии и системы 2018".: Институт проблем передачи информации им. А.А. Харкевича РАН, 2018. С. 1-10. 
Cheloshkina K., Poptsova M. Machine-learning models for cancer breakpoints prediction based on DNA structure distributions, in: Сборник трудов 42-й междисциплинарной школы-конференции ИППИ РАН "Информационные технологии и системы 2018".: Институт проблем передачи информации им. А.А. Харкевича РАН, 2018. С. 1-5. 
undefined., Poptsova M. Recognition of 3’ UTR stem-loop in LINE transposons across the tree of life by machine learning methods, in: Сборник трудов 42-й междисциплинарной школы-конференции ИППИ РАН "Информационные технологии и системы 2018".: Институт проблем передачи информации им. А.А. Харкевича РАН, 2018. С. 1-5.