• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Роль вторичных структур ДНК в функционировании генома

Приоритетные направления развития: компьютерно-математическое
2019

Цель работы

Целью научного проекта, реализуемого НУЛ биоинформатики, является изучение роли вторичных структур ДНК в функционировании генома. В первую очередь интерес представляет изучение роли вторичных структур ДНК в организации хроматина, связь вторичных структур ДНК с эпигенетическим кодом, а также изучение ДНК-белковых взаимодействий.

Используемые методы

Построение моделей машинного обучения для распознавания как самих вторичных структур ДНК, так и паттернов ассоциации структур ДНК с другими функциональными элементами генома; построение моделей машинного обучения для предсказания пространственной организации генома; расширение базы данных и анализ ДНК-белковых взаимодействий.

Эмпирическая база исследования

Исследование ведется in silico, то есть методами компьютерных экспериментов.

В работе используются данные консорциумных международных проектов, находящихся в открытом доступе: Encode, Roadmap Epigenomics, The Cancer Genome Atlas.

Используется база данных нуклеиново-белковых взаимодействий NPIDB (http://npidb.belozersky.msu.ru/), содержащая структуры ДНК-белковых и РНК-белковых комплексов, которая является разработкой и интеллектуальной собственностью Спирина Сергея Александровича, участника НУЛ.

В процессе исследования будут разрабатываться программные модули анализа данных, которые будут размещаться в открытом доступе и представлять собой один из продуктов деятельности лаборатории.

Результаты работы

Были разработаны нейросетевые модели глубинного обучения для распознавания участков Z-ДНК в геноме человека, модель была протестирована на геноме человека.

Были разработаны нейросетевые модели глубинного обучения для распознавания квадруплексов в геноме человека, модель была протестирована на геноме человека.

Были разработаны нейросетевые модели для глубинного обучения для определения функциональной роли квадруплексов с помощью мутационных карт.

Были выделены и охарактеризованы паттерны ассоциации квадруплексов с гистонными метками в ткани мозга и стволовых клетках. Были построены нейросетевые модели глубинного обучения для распознавания общих и тканеспецифичных паттернов.

Были определены дифференциально метилированные квадруплексы, связанные с развитием и половой дифференциацией. Анализ представленности дифференциально метилированных G4s выявил, что регуляция на основе G4s может участвовать в ряде биологических процессов, таких как дифференцировка клеток, организация цитоскелета и внеклеточного матрикса.

Были построены нейросетевые модели для глубинного обучения для определения границ топологически ассоциированных доменов.

Были изучены окрестности разрывов в геномах раковых больных на наличие вторичных структур ДНК. С помощью методов машинного обучения было произведено исследование влияния различных факторов на вероятность образования разрыва в раковых геномах: вторичных структур, эпигенетических факторов, факторов транскрипции. Были выявлены 12 участков ДНК, содержащих скопления мутаций разных пациентов.  

С помощью методов машинного обучения были изучены физико-химические и структурные свойства структур стебель-петля на концах транспозонов в геноме человека. Было обнаружено наличие структур на концах псевдогенов. Методами машинного обучения было показано наличие структурного сходства между концами транспозонов, матричной РНК и псевдогенов.

Были определены видоспецифичные ДНК-регуляторные элементы в мозговой ткани. Были определены человекоспецифические пики ацетилирования.  С помощью методов машинного обучения были распознаны участки, специфичные и неспецифичные для человека, и получены последовательности, которые вносят значимый вклад в классификацию.

Для 10 семейств транскрипционных факторов были рассчитаны параметры формы ДНК в зоне контакта с белком. Были выявлены показатели, по которым некоторые семейства заметно отличаются от остальных.

Была написана программа на языке C# для кроссплатформенного фреймворка .NET Core, которая использует пакеты X3DNA и Curves+. При помощи созданной программы были рассчитаны параметры двойной спирали ДНК для 4475 белковых доменов из 81 семейства. Получившаяся программа пригодна для дальнейшего использования на больших наборах данных. Предполагается интегрировать полученные результаты в базу NPIDB.

Были построены и проанализированы мутационные подписи в геномах рода Brucella 55 штаммов бруцелл девяти разных видов. Были определены специфичные для видов подписи мутаций.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Разработанные модели машинного обучения могут быть использованы для аннотации геномов разных видов вторичными структурами ДНК.

Вторичные структуры ДНК обладают потенциалом служить терапевтическими мишенями при лечении различных заболеваний.