• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Поведение современных предобученных языковых моделей на примере диагностических задач

ФИО студента: Каляева Екатерина Валерьевна

Руководитель: Дурандин Олег Владимирович

Кампус/факультет: Факультет гуманитарных наук (Нижний Новгород)

Программа: Фундаментальная и прикладная лингвистика (Бакалавриат)

Год защиты: 2021

В настоящей работе исследуется проблема языкового моделирования, в частности предобученные языковые модели семейства BERT и их поведение при решении диагностической задачи маскированного языкового моделирования. Рассматриваются теоретические аспекты предобучения и исследования языковых моделей, а именно теория семантических ролей, языковые фреймы, пресуппозиция, отрицания с точки зрения лингвистики. Для проведения экспериментов по каждом из этих аспектов использовался русскоязычный корпус, который был составлен из учебных текстов для изучающих русский язык и размечен с помощью Национального корпуса русского языка. Он составил около 2500 слов, или 20 600 знаков. Для анализа подкорпусов написан скрипт на языке python с использованием библиотек, содержащих предварительно обученные модели и инструменты для работы с ними. Цель работы была достигнута: исследовано поведение предобученной языковой модели BERT в диагностической задаче маскированного языкового моделирования для русского языка и лингвистически описаны случаи, когда модель показывает неудовлетворительные результаты. По метрикам качества (precision at k и recall at k, а также доля слов, семантически связанных с целевым словом гипо-гиперонимическими отношениями, в предсказаниях) лучшей моделью признан мультиязычный BERT, по этой причине гипотеза о том, что обученные на русскоязычном материале модели дают более качественное предсказание, не подтвердилась. Однако результаты разных экспериментов в целом уравновешивают три модели, поэтому можно сказать, что все они имеют сильные стороны в отношении определенных языковых явлений.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ