• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Реализация алгебраических алгоритмов приближенного поиска по образцу в сжатых данных

ФИО студента: Федоркина Мария Олеговна

Руководитель: Новиков Борис Асенович

Кампус/факультет: Санкт-Петербургская школа физико-математических и компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Год защиты: 2021

Приближенный поиск по образцу — хорошо изученная проблема для строк: по тексту t и образцу p необходимо найти все подстроки в t, похожие по какому-то критерию на p. Мера сходства, которую мы используем в этой работе, — это длина наибольшей общей подпоследовательности (НОП) двух строк. Мы реализуем алгоритм, который решает задачу приближенного поиска по образцу для образца p длины m и текста t длины n за время O(mn), неявно сохраняя все значения НОП в алгебраической структуре размера O(m + n). Мы дополнительно обобщаем алгоритм для вычисления НОП несжатой строки-образца длины m и строки-текста длины n, сжатой контекстно-свободной грамматикой длины k за время O (mk log m). Используя то, что временная сложность этого алгоритма не зависит от длины несжатого текста, мы показываем, что алгоритм достигнет существенного ускорения для определенных типов сжатых текстов, даже с увеличением константы времени работы в результате сложных операций с алгебраическими структурами. Мы сравниваем время работы нашего алгоритма со стандартным алгоритмом динамического программирования и утилитой для приближенного поиска по образцу agrep и демонстрируем улучшение для некоторых специальных видов текстов в обоих случаях, хотя на случайных текстах наш алгоритм стандартным решениям проигрывает. Ключевые слова: строковые алгоритмы, приближенный поиск по образцу, наибольшая общая подпоследовательность, контекстно-свободные грамматики.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ