• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Ремнева Виталия Глебовна
Service for Recognition Author’s Native Language Based on English Essay
2018
In this master's thesis the problem of recognizing the author’s native language based on English essays is considered for which a model based on machine learning algorithms is constructed. As the data for learning the model, TOEFL 11: A Corpus of Non-Native English which was created specifically for the task of recognizing the author's native language is used. The goal of the work is to construct a model, the accuracy of which will surpass the previously achieved results, for which the support vector method is used, which has proved as the best method for solving the problem. The work also considers a promising approach to the problem of recognizing the native language previously not used - convolutional neural networks. The attention is also paid to the presentation of the text data in vector format, for which several different perspective approaches are used: TF / IDF metric, Word2Vec and vocabulary construction. Within the framework of this work, a series of experiments was conducted using various vectorization methods and preliminary processing of the training sample for support vector machine and convolutional neural networks.

The support vector method, which uses the TF / IDF metric, unigram and bigram, also with a specific configuration of processing data for learning and parameters, shows a maximum accuracy of 84.16%, exceeding the results of other authors who also used TOEFL 11 corpus.

Convolutional neural networks are usually used to process and classify images, but due to the Y. Kim approach used in this work, their applications have become available for working with text data. The approach is showed sufficient results: the maximum achieved accuracy of the model using this approach is 75.15%. Convolutional neural networks demonstrate their applicability to the solving the problem of recognizing author’s native language based on a text and the prospects for further research.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР