• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Глушкова Таисия Олеговна
Символьные модели в задаче разбиения хештегов
2018
Основная цель данной работы – изучение применимости символьных моделей в задаче разбиения хештегов на составляющие.

В данной работе приводится краткий обзор существующих методов, используемых в задачах сегментации текстов, а также предлагается применение двусторонней рекуррентной нейронной сети с LSTM (Long Short Term Memory) ячейками. Рассматривается именно этот метод, поскольку в последнее время рекуррентные нейронные сети показывают высокое качество в задачах обработки текстов, близких к сегментации строк на отдельные независимые слова.

Этот метод тестируется на наборе данных, собранных из открытого источника – социальной сети ВК. Стандартный пост в этой социальной сети можно разделить на текст и соответствующие хештеги. В результате такого разделения были составлены коллекция текстов на русском языке и список хештегов. Обучающая выборка представляет собой синтетические данные, сгенерированные на основе коллекции текстов. В основу тестовой выборки легли широко используемые настоящие хештеги.

В качестве baseline алгоритма взят словарный подход, описанный в главе "Natural Language Corpus Data'' книги "Beautiful Data". В частности, лингвистическая модель униграм и биграм, принимающая решение о сегментации хештега, основываясь на частотах употребления каждого слова. В результате экспериментов было выяснено, что качество символьной модели значительно превышает качество словарного метода. Помимо экспериментов с архитектурой модели, было рассмотрено активное обучение с целью выявления большей интерпретируемости модели.

Работа разделена на следующие основные этапы: обзор литературы, исследуемый набор данных, методы, эксперименты и результаты, программная реализация и заключение.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР