• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Создание сервисов для анализа больших данных на базе платформы Everest

ФИО студента: Файзуллина Динара Рустемовна

Руководитель: Сухорослов Олег Викторович

Кампус/факультет: Факультет компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Год защиты: 2016

Everest — облачная платформа, позволяющая пользователям публиковать и выполнять приложения в распределенной среде. При построении такого рода платформ важной становится задача передачи данных на вычислительные ресурсы. Everest пока имеет некоторые ограничения на передачу данных, а именно, все входные и выходные данные должны проходить через сервер Everest, что является неоптимальным с точки зрения затрат дисковых ресурсов на хранение данных. Поэтому одной из задач стала реализация схем прямой передачи данных между пользователями Everest-приложения и вычислительными ресурсами. Была реализована интеграция Everest с облачным хранилищем Dropbox. Кроме того, дополнительно осуществлена интеграция платформы Everest с публичным репозиторием данных Dataverse, позволяющим загружать файлы по идентификатору цифрового объекта. Другим решаемым в ходе исследования вопросом стало создание Everest-приложений, призванных продемонстрировать возможность публикации на данной платформе приложений, использующих системы распределенной обработки данных. В качестве примера такого приложения была выбрана задача картирования чтений на большие референсные гены, являющаяся вычислительно трудоемкой процедурой. Результатом работы над данной задачей стало Everest-приложение, использующее технологию Hadoop MapReduce для решения задачи картирования чтений на референсный геном. При этом загрузка входных данных происходит напрямую с FTP-сервера, что может рассматриваться как частный случай решения задачи передачи данных большого размера на вычислительные ресурсы в обход сервера Everest. В ближайшее время планируется сделать доступным реализованный функционал передачи данных для всех пользователей платформы Everest, что требует прохождения процесса одобрения в службе поддержки Dropbox. Также рассматривается возможность интеграции платформы Everest с сервисом Globus Online, что позволит обеспечить передачу данных большого объема от пользователей на вычислительные ресурсы и обратно.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ