• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическое извлечение информации из грамматик

ФИО студента: Ермолаева Наталья Александровна

Руководитель: Толдова Светлана Юрьевна

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Год защиты: 2019

Настоящая работа направлена ​​на решение ряда фундаментальных проблем в области обработки естественного языка (NLP). Прежде всего, это задача распознавания языка. Процесс идентификации языка — это установление естественного языка, на котором написан переданный на вход документ. Первоначальные исследования относительно данной проблемы были проведены еще в 70-х годах 20 века. Однако попытки решения данного вопроса основывались исключительно на многоязычных документах. Основными материалами настоящей работы являются тексты грамматик, которые представляют собой мультиязычный материал, именно поэтому мы проводим ряд экспериментов с помощью устоявшихся методик определения языка документа (символьные N-граммы) в отношении материалов, состоящих из более чем одного языка. Более того, в ходе данного исследования нам необходимо определить, какие именно части имеющегося текстового материала представляют интерес и, соответственно, что потребуется извлекать из грамматик. На основе извлеченной информации нами были составлены словари исходных языков, а также корпуса с примерами (в том числе с их глоссированными вариантами). Таким образом, в результате данной работы был создан инструмент для автоматического извлечения релевантной информации из текстов грамматик путем применения комплекса методов, среди которых, прежде всего, определение языка мультиязычного (в данном случае – билингвального) документа с последующим извлечением единиц, язык которых отличен от метаязыка грамматики, что позволило решить задачу автоматического создания и наполнения словаря того или иного языка. Более того, посредством применения классификационных моделей к входным материалам была решена задача извлечения составных примеров, содержащихся в текстах грамматик, а также их разделения на три составляющих: предложение на исходном языке, его глоссированный вариант, а также переводной эквивалент. Благодаря данной классификации у нас появляется возможность автоматического создания и наполнения параллельных корпусов для различных языков мира.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ