• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сервис для распознавания родного языка автора на основе английских эссе

ФИО студента: Ремнева Виталия Глебовна

Руководитель: Александров Дмитрий Владимирович

Кампус/факультет: Факультет компьютерных наук

Программа: Системная и программная инженерия (Магистратура)

Год защиты: 2018

В рамках данной магистерской диссертации рассматривается задача определения родного языка автора текста, основываясь на английских эссе, для чего строится модель, основанная на методах машинного обучения. В качестве данных для обучения модели используется корпус TOEFL 11: A Corpus of Non-Native English, созданный специально для задачи определения родного языка автора. Целью работы является построение модели, точность которой превзойдет ранее достигнутые результаты, для чего используется метод опорных векторов, хорошо зарекомендовавший себя для решения задачи. В работе также рассматривается перспективный подход к задаче определения родного языка ранее не используемый – сверточные нейронные сети. Особое внимание также уделяется представлению текстовых данных в векторном формате, для чего используется несколько различных перспективных подходов – метрика TF/IDF, Word2Vec and vocabulary construction. В рамках данной работы была проведена серия экспериментов с использованием различных методов векторизации и предварительной обработки тренировочной выборки для метода опорных векторов и сверточных нейронных сетей. Метод опорных векторов при использовании метрики TF/IDF, униграмм и биграмм, а также при определенной конфигурации обработки данных для обучения и параметров SVM показал точность 84.16%, превышающую достигнутые прежде результаты других авторов, также использующих корпус TOEFL 11. Сверточные нейронные сети обычно используются для обработки и классификации изображений, однако, благодаря подходу Y. Kim, использованному в данной работе, их применения стало доступным для работы с текстовыми данными. Подход показал достойные результаты – максимальная достигнутая точность модели при использовании данного подхода составила 75.15%. Сверточные нейронные сети продемонстрировали применимость метода для решения задачи определения родного языка автора текста и перспективность дальнейших исследований.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ