• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разбиение хештегов на составляющие слова

ФИО студента: Бальжанов Цырен Станиславович

Руководитель: Артемова Екатерина Леонидовна

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2018

Хештеги играют особую коммуникативную роль записях социальных сетей и мессенджерах, однако при компьютерном анализе сообщений социальных сетей они зачастую рассматриваются только как единое целое, несмотря на то, что зачастую представляют собой словосочетание или небольшое предложение. В данной работе рассматривается проблема разбиения русскоязычных хештегов на составляющие слова. В работе было проведено экспериментальное сравнение нескольких методов, основанных на двух подходах: подход обучения без учителя с использованием статистических языковых моделей, и подход обучения с учителем с использованием рекуррентных нейронных сетей. Статистические модели использовали русскоязычный корпус OpenCorpora. В ходе работы был проведен сбор большого количества хештегов и их разметка с использованием краудсорсинга. Разметка была использована для сравнения моделей и для обучения нейронных сетей. В результате экспериментального сравнения, модели с использованием рекуррентных нейронных сетей показали себя как превосходящие модели с использованием статистических языковых моделей. В работе проведен анализ результатов, сделаны вывыды о преимуществах и недостатках каждого подхода и предложены варианты дальнейшего улучшения качества моделей.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ