• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическое определение гендерной идентичности: феномен русской женской прозы в литературе конца 20 века

ФИО студента: Хазова Анастасия Борисовна

Руководитель: Орехов Борис Валерьевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Теория языка и компьютерная лингвистика (Магистратура)

Год защиты: 2017

Исследование посвящено изучению методов автоматического определения гендерной идентичности авторов на материале художественной прозы 1960-2000 годов. Цель данной работы - выявление оптимальных методов автоматического определения гендерной идентичности авторов. Задачи данного исследования включают в себя выделение грамматических стилистических особенностей художественной прозы 1960-2000 годов и, в особенности, женской прозы, а также текстов XVIII - XIX в.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода и проведение эксперимента по выявлению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. Анализ показал, что на протяжении всего исследуемого периода женщины и мужчины часто используют в своих текстах следующие части речи: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля. Кроме того, был произведен анализ употребления наиболее часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие, точка с запятой, точка, запятая. Было замечено, что в современной литературе женщины более активно пользуются средствами пунктуации как выразительными средствами: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов. Также в работе содержится анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII-XIX веков. Мы провели эксперимент по выявлению наиболее действенного алгоритма определения гендерной идентичности автора. Было выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ