• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Программа анализа текстов на основе модифицированного метода аннотированных суффиксных деревьев

ФИО студента: Дубов Михаил Сергеевич

Руководитель: Миркин Борис Григорьевич

Кампус/факультет: Отделение программной инженерии

Программа: Бакалавриат

Оценка: 10

Год защиты: 2014

<p>Отчет 35 страниц, 4 главы, 7 иллюстраций, 2 таблицы, 35 источников, 5 приложений.</p><p><strong><em>Ключевые слова:</em></strong><em> анализ текстов, алгоритмы над строками, аннотированные суффиксные деревья, суффиксные массивы, выделение синонимов, концептуальные графы.</em></p><p>Объектом разработки является программа статистического анализа текстов на основе модифицированного метода аннотированных суффиксных деревьев (АСД). Будучи многообещающей методологией анализа текстов с многочисленными оригинальными применениями, традиционный метод АСД показал свою недостаточную эффективность в смысле потребления его базовыми алгоритмами вычислительных ресурсов (времени и памяти) при использовании в работе с большими по объему коллекциями текстов. Кроме того, эксперименты на реальных текстах показали, что метод АСД в своем базовом виде нередко дает нерелевантные оценки степени вхождения ключевых словосочетаний в анализируемые корпуса текстов из-за отсутствия в нем поддержки учета языковых особенностей анализируемых текстов, прежде всего &ndash; синонимов.</p><p>Целью работы является разработка модификации исходного метода АСД, позволяющей преодолеть указанные выше его недостатки, а также создание программного продукта, реализующего соответствующие алгоритмы. Ряд экспериментов показал, что новая программная реализация метода АСД превзошла использовавшиеся до этого аналоги в отношении как объема используемой памяти (достигается десятикратная ее экономия), так и времени работы основных алгоритмов. Эти результаты были достигнуты за счет использования в программной реализации вместо суффиксных деревьев более эффективной альтернативной структуры данных &ndash; суффиксных массивов.</p><p>Программный продукт распространяется с открытым исходным кодом под лицензией MIT как Python-пакет EAST. Он также официально зарегистрирован в системе Python Package Index. Пакет не только может использоваться в качестве Python-библиотеки в других проектах, но и предоставляет конечному пользователю удобный интерфейс командной строки для работы с анализируемыми текстами.</p><p>В настоящее время продукт успешно внедрен в систему сбора и анализа газетных статей, разрабатываемую НУГ &laquo;Методы анализа и визуализации текстов&raquo; НИУ ВШЭ.</p><p>Дальнейшие направления работы включают в себя уточнения конфигурации алгоритма выделения синонимов, а также расширение круга практических приложений метода АСД, поддерживаемых нашим ПО.</p>

Текст работы (работа добавлена 30 мая 2014 г.) (1.05 Kb)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ