• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Выявление специальных тематик в коротких текстах на естественном языке

ФИО студента: Самелюк Кирилл Андреевич

Руководитель: Осипов Геннадий Семенович

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2016

Стремительное развитие информационных технологий привело к значительному увеличению числа текстовых документов, хранящихся в электронном виде. При текущих темпах роста объемов данных с задачей обработки текстов не справится ни отдельно взятый эксперт, ни целая группа специалистов. Именно это и определяет актуальность разработки методик и подходов к решению задач автоматической обработки, хранения и сбора данных. В данной работе рассмотрены методики автоматического распознавания языка коротких текстовых сообщений и выявления специальных тематик, отвечающих различным нарушениям законодательства. Целью работы является анализ запросов поисковой системы на предмет определения языка и выявления различных нарушений. Работа состоит из пяти глав: введения, описания методики автоматического определения языка коротких текстов, описание подхода для выявления тематик на основе специализированных словарей, анализ поисковых запросов с помощью описанных методик и выводов, полученных в результате обработки запросов поисковой системы. Во время выполнения работы было проанализировано более одного миллиарда запросов поисковой системы, взятых за период с 1 по 11 апреля 2016 года. Поисковые запросы были разбиты по регионам и отфильтрованы 100 самыми активными. К основным результатам можно отнести то, что подавляющее число запрос спрашивается пользователями на русскому языке (в различных регионах колеблется от 47% до 53%). Кроме того распределения языков запросов никак не соотносится с национальным составом региона. Общее распределение нарушений сохраняется для всех регионов: самое частое нарушение связано с наркотическими веществами, далее нарушения, относящиеся к экстремизму и национализму.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ