• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Создание веб-корпуса

ФИО студента: Макшанчиков Константин Николаевич

Руководитель: Артемова Екатерина Леонидовна

Кампус/факультет: Факультет компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Год защиты: 2015

Данная работа посвящена разработке программного обеспечения для создания веб-корпусов по определенной тематике на базе российского сектора интернета с помощью современных средств морфологического анализа и автоматического поиска по веб-страницам в открытом доступе. Делается попытка реализации итеративной процедуры сборки веб-корпусов с использованием двух методов извлечения ключевых словосочетаний: по сниппетам и по собранным текстам. Решается следующий ряд задач построения веб-корпусов: сбор данных, обработка данных и генерация новых списков ключевых словосочетаний, которые используются для поиска. В качестве начальных данных используется некоторый заданный пользователем набор словосочетаний, которые определяют предметную область веб-корпуса. Словосочетания используются в качестве поисковых запросов для поисковой машины Яндекса. В результате чего получаются наборы гиперссылок и сниппетов. По каждой из гиперссылок осуществляется переход на веб-страницы. Тексты каждой веб-страницы сохраняется в файлы, из которых затем будет извлечен содержательный текст. Производится очистка текстов от HTML-разметки и проверка на наличие нечетких дубликатов с помощью алгоритма шинглирования. На финальном этапе рассматриваются сниппеты или собранные коллекции текстов, в результате анализа которых создаются новые списки ключевых словосочетаний – частотных пар или троек слов, удовлетворяющих морфологическим шаблонам. Новые ключевые словосочетания используются для поиска на следующей итерации. Результатом проделанной работы стала программа, умеющая собирать веб-корпуса по определенной тематике. Решены проблемы итеративного поиска данных в Интернете с помощью поискового оборудования Яндекса, выделения содержательной информации из текста веб-страниц, удаления дубликатов текстов, а также выделения наиболее часто встречающихся словосочетаний из текстов и сниппетов. Осуществлен сбор нескольких корпусов и подсчет статистики по ним. Также был разработан графический интерфейс программы.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ