• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Измерение гендерной предвзятости русскоязычных моделей векторных представлений слов

ФИО студента: Пестова Алена Сергеевна

Руководитель: Маслинский Кирилл Александрович

Кампус/факультет: Санкт-Петербургская школа социальных наук

Программа: Социология и социальная информатика (Бакалавриат)

Год защиты: 2021

Проблема гендерной предвзятости в моделях обработки естественного языка (NLP) вызывает все большую озабоченность в сообществе NLP в последние годы. Различные типы моделей NLP демонстрируют социальные предубеждения с точки зрения пола, расы и религии, которые они наследуют из обучающих текстов. Было показано, что модели векторных представлений слов (word embeddings) также воспроизводят различные предрассудки, в том числе, гендерные предубеждения. С другой стороны, такие модели часто используются в социальных науках для изучения корпусов текстов, их авторов или некоторых социальных явлений в целом. Для таких исследований важно понимать природу и причины появления предубеждений в моделях, а также условия, при которых предрассудки наследуется моделями из обучающих текстов. Существующие исследования гендерной предвзятости часто сосредоточены на моделях английского языка, а для моделей на русском языке таких исследований нет. Также существует пробел в исследованиях влияния параметров модели на ее предвзятость. В данной работе выбран экспериментальный подход, построено 36 моделей на 4 корпусах с варьированием как параметров модели (алгоритм, размер окна), так и корпусных (размер корпуса, жанр). Для обучения используются русскоязычные корпуса GeoWAC, Википедия, Национальный Корпус Русского Языка и ДетКорпус. Затем гендерная предвзятость моделей векторных представлений слов была проанализирована с помощью метода WEAT. Исследовано влияние состава корпуса и параметров модели на гендерную предвзятость модели. Результаты и выводы, сделанные в этом исследовании, могут быть полезны как исследователям в области социальных наук, так и в области NLP.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ