Автоматическое оценивание экзаменационных эссе на основании морфологических, лексических, синтаксических, дискурсивных факторов

ФИО студента: Пантелеева Ирина Максимовна

Руководитель: Ляшевская Ольга Николаевна

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Оценка: 9

Год защиты: 2019

В ходе нашего исследования мы ставим задачу понять, какие критерии сложности текста лучше всего отражают уровень владения языком. Используя различные подходы машинного обучения, мы подтвердили следующую гипотезу: некоторые метрики текста являются важнее других. В целом, мы исследовали 59 признаков, которые можно разделить на пять групп: лексические, морфологические, синтаксические, дискурсивные и относящиеся к L1-интерференции. Мы установили, в чём различие между двумя жанрами эссе: описание графиков и opinion-эссе. Кроме того, критерии текста помогли дать представление о том, чем отличается начало эссе от конца. В ходе исследования мы ответили на следующие вопросы: Какие метрики текста более важны при оценивании эссе? Какие метрики текста являются взаимно скоррелированными? Играют ли роль жанровые особенности текста в оценивании эссе? Есть ли разница между началом и концом эссе? Какие методы исследования лучше подходят для автоматического оценивания эссе? Такие вопросы предполагают постановку следующих целей: определить критерии, наиболее влияющие на оценку; разработать метод автоматической оценки эссе; создать приложение на основе результатов этого исследования. В ходе исследования было выяснено, какие особенности текста более релевантны для оценки эссе, написанных русскими студентами на английском языке. Проведенные в работе эксперименты основаны на выборке из 3440 текстов, выбранных из русского аннотированного корпуса по изучению английского языка REALEC. Для каждого эссе были подсчитаны значения выбранных критериев. Для предсказания оценки были использованы методы машинного обучения и статистический анализ. Наилучший результат был получен в модели random forest classifier, обученной на несбалансированных данных с добавлением векторов TF-IDF: точность 0.85, полнота 0.89, f1-score 0.85. Результаты этого исследования помогли создать онлайн-приложение, которое, автоматически анализируя текст эссе, предсказывает оценку и указывает сильные и слабые стороны текста.

Текст работы (работа добавлена 4 июня 2019 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ