• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Влияние методов морфологической предобработки обучающего корпуса на качество дистрибутивных семантических моделей (на материале русского языка)

ФИО студента: Тушканов Владислав Николаевич

Руководитель: Артемова Екатерина Леонидовна

Кампус/факультет: Факультет гуманитарных наук

Программа: Теория языка и компьютерная лингвистика (Магистратура)

Оценка: 10

Год защиты: 2017

В данной работе рассматривается то, как морфологическая предобработка корпуса влияет на качество дистрибутивных языковых моделей в приложении к задаче классификации. Рассматриваются как теоретические аспекты, связанные с морфологической предобработкой текста и построением дистрибутивных моделей, так и возможность их практического применения. В ходе экспериментов рассматриваются три вида морфологического препроцессинга (стемминг, лемматизация, частеречная разметка) и три алгоритма построения дистрибутивных моделей (word2vec skip-gram, FastText skip-gram и GloVe). На примере четырех различных классификаторов (включая использующие нейронные сети) показывается, как морфологическая предобработка текста влияет на конечный результат и рассматриваются случаи, в которых она имеет положительный эффект на конечный результат, и те, в которых от нее следует отказаться.

Текст работы (работа добавлена 24 мая 2017 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ