• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Версия для слабовидящихЛичный кабинет сотрудника ВШЭПоискМеню

Автоматизированная проверка текста, написанного на английском языке русскоязычными авторами (ADWISER)

Приоритетные направления развития: гуманитарные науки
2020

Цель работы

Провести аналитическое и статистическое сравнениеэкспертной и автоматизированной идентификации ошибок ииспользования маркеров научного стиля на материале устных иписьменных учебных корпусов.

Используемые методы

Методология работы с данными из текстов корпуса включала следующие этапы обработки и анализа эмпирического материала:

  • разработка принципов автоматизации соединения частеречной разметки с аннотацией ошибок в корпусах контекстов;
  • идентификация нерелевантных данных, формально отвечающих отдельным аспектам запроса, в выдачах предложений на каждое поисковое предписание, моделирование тактик корректировки лингвистического алгоритма решения морфолого-синтаксической задачи в соответствии с методическими и исследовательскими запросами потенциальных пользователей;
  • соотнесение пользовательских запросов (связанных с потенциально разными объемами выдач, уточнением полученного результата, ранжированием данных по параметрам, времязатратностью поиска) со способами реализации программного обеспечения базы данных;
  • применение нейронных сетей глубинного обучения со сложной архитектурой (использование модели BERT) для идентификации и исправления ошибок обучающихся;
  • обучение нейронной сети для лексической кластеризации с целью классификации всех эссе корпуса по конкретному заданию;
  • изучение реализации маркеров научного стиля на материале учебных и профессиональных письменных корпусов;
  • сравнительный анализ существующих программных решений, использующихся для обработки естественного языка, с целью выбора оптимального подхода для создания единой платформы;
  • статистический анализ полученных количественных различий с целью дальнейшего составления рекомендаций для преподавателей и обучающихся академическому письму на английском языке.

Эмпирическая база исследования

Девять учебных корпусов НИУ ВШЭ:

  • корпус учебных текстов на английском языке – REALEC;
  • корпус учебных текстов на русском языке – RLC;
  • пермские учебные и экспертные корпуса по шести предметным областям (история, политология, юриспруденция,экономика, менеджмент, компьютерные науки);
  • корпус устной академической речи на английском языке (корпус докладов участников научно-практической конференции);
  • исследовательские датасеты, полученные с помощью разработанных в НУЛе инструментов (ADWISER – для идентификации контекстов, подозрительных на наличие ошибки; Inspector - для оценки сложности текста). 

Результаты работы: 

За отчетный период проведена работа по созданию исследовательской базы данных для работы с учебными экзаменационными текстами корпуса REALEC и получены датасеты по следующим видам ошибок в учебных текстах:

  • ошибки в видо-временных формах глагола (материал для исследования, представленного Викловой А.В. на конференции ПетрГУ в ноябре 2020 г., а также для статьи про глаголы в Acta Petropolitana, вышедшей летом 2020 года)
  • ошибки в предлогах в независимых контекстах и в лексически обусловленных конструкциях (по материалам курсовой Орехова А., выполненной под руководством Виноградовой О.И., и материал для доклада сотрудников НУЛ на конференции TaLC 2020, а также для статьи сотрудников НУЛ в сборнике серийной монографии издательства  Benjamins)
  • ошибки в относительных клаузах трех типов и в построении конструкций релятивизации в английском языке (материал для ВКР Миляевой Н.)
  • ошибки в использовании именных и глагольных референциальных средств (материал для курсовых работ Клыковой Е. и Кошкиной К.)
  • ошибки в использовании четырех пунктуационных знаков (запятые, точки с запятой, двоеточия и тире (материал для курсовой работы Папоротского М. и семинара в Центре академического письма, проведенного Виноградовой О.И.)
  • ошибки в сравнительных конструкциях (материал для доклада сотрудников НУЛ на конференции TaLC 2020).

Разработана программа на языке Питон по автоматизированному аннотированию ошибок правописания, записывающая идентифицируемые специализированной программой ошибки в файлы аннотации корпуса. Теперь эту трудоемкую часть аннотации осуществляет программа, а не аннотаторы.

Для работы с инструментами, разрабатываемыми в НУЛ учебных корпусов, внедрены следующие возможности:

  • добавлена возможность выгружать предложения с ошибкой из текстов корпуса для сохранения их в базе данных тестовой платформы и взаимодействия с ними в её интерфейсе;
  • при просмотре базы данных присутствует возможность их фильтрации на основе тегов ошибок, а также доступна возможность сохранения выбранных результатов;
  • усовершенствован функционал работы с упражнениями формата Независимого экзамена в рамках тестовой платформы;
  • разработана система выбора преподавателем способа оценки для отдельных вопросов и отдельных частей экзамена.

Вопросам использования тестовой и справочной платформ было посвящено выступление четырех сотрудников НУЛ учебных корпусов на конференции TaLC в июле 2020 года.

Проведено применение модели глубинного обучения системы HEPTABOT для автоматизированной идентификации ошибок в учебных текстах на английском языке и – впервые за годы существования корпуса REALEC - автоматизированного исправления найденных ошибок. Выбор метода и особенностей применения модели составили материал ВКР стажера-исследователя Торубарова И.С. К ознакомлению с работой модели  были подключены практиканты Школы лингвистики - они рассмотрели типичные стадии работы в задачах NLP с глубинным обучениеми участвовали в усовершенствовании модели. 

Исследование параметров синтаксической сложности текста проведено с использованием инструментов AntConc, на основе показателей парсера UDPipe, а также с использованием разработанной в НУЛ системы Inspector. Влияние типа задания на частотность ошибок и показатели грамотности письма (accuracy) было доказано.

Для автоматизированных подсчетов параметров синтаксической сложности текста использовались методы, включающие рассмотрение синтаксических конструкций с максимальной категориальной конкретизацией, так как в процессе освоения нового языка изучающими вмешиваются процессы, связанные с особенностями родного языка, и возникают тенденции, приводящие к изменению частотности одного конкретного типа среди всех прочих разновидностей некоторой синтаксической конструкции. Из статей сотрудников НУЛ, освещающих эти исследования, одна вышла в Московском лингвистическом журнале (Вестник РГГУ), №7 за 2020 год, а вторая прошла этап рецензирования и находится на стадии внесения незначительных изменений в журнале 1 квартили Assessing Writing для публикации в 2021 году.

Также на основе этих исследований подготовлены выступления сотрудников НУЛ на международной конференции в июле 2020 года и написана статья для публикации в сборнике серийной монографии издательства Benjamins по вопросам сложности текста под редакцией проф. Ленко-Шиманска и проф. Гоетц.

Собраны материалы и базы данных для создания онтологии лингвоспецифичных ошибок студентов с родным русским языком в учебных эссе на английском языке. На основе этих материалов будут написаны курсовая бакалавриата Школы лингвистики под руководством научного сотрудника НУЛ Викловой А.В. и  курсовая магистратуры ФКН с участием научного сотрудника НУЛ Виноградовой О.И. в качестве консультанта. 

Проведен анализ употребления некоторых маркеров научного стиля в корпусах статей по шести разным дисциплинам (на основе этих материалов Е.А. Смирновой и Е.В. Костаревой написаны статьи, которые в настоящее время находятся на рассмотрении в журналах).

Подготовлены опросники для экспериментов с целью получения подтверждения гипотез о роли интерференции в процессах освоения русского и английского языков.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Усовершенствованы программные средства (ADWISOR и HEPTABOT), применяемые в учебном процессе в образовательных программах Школы лингвистики для автоматизированной консультации студентов, изучающих английский язык. В 2021 году после завершения проекта студентов 4 курса ФКН (ментор -Виноградова О.И). по созданию пользовательского интерфейса для работы с базой данных корпуса REALEC предполагается провести представление этих средств преподавателям английского языка Школы иностранных языков.

На основе полученных данных по использованию маркеров научного стиля планируется провести семинар для слушателей семинаров Центра академического письма НИУ ВШЭ.

Сотрудники НУЛ учебных корпусов выступили с докладами о корпусных исследованиях на юбилейной конференции Петрозаводского государственного университета и провели воркшоп по направлениям работы НУЛ на неделе «Корпусные исследования» Ивановского государственного университета.

Публикации по проекту:


Vinogradova O. I., Lyashevskaya O., P. I., Buzanov A. Correlations between accuracy, complexity, and task type: Learner corpus research, in: Learner Corpora and Language Teaching. Gießen : John Benjamins Publishing Company, 2019. 
Olga V., Buzanov A., Lyashevskaya O., P. I. Correlations between accuracy, complexity, and task type: Learner corpus research, in: Widening the scope of learner corpus research.: John Benjamins Publishing Company, 2020. 
Olga V., Viklova A., Папоротский М. А. Punctuation in L2 English and L1 Interference: Computational Theory of Punctuation Applied to Learner Corpus, in: Emerging Writing Research from the Russian Federation., 2020. С. 113-141. 
Antineskul O. L., Vlasov A. S., Kostareva E. V., Permyakova T. M. The Use of Discourse Markers in L2 Writing along the Novice-Expert Continuum // Konińskie Studia Językowe. 2020. Vol. 8. No. 2. P. 185-202. doi
Smirnova E. A., Стринюк С. А. Hedges in Russian EAP writing: A corpus-based study of research papers in management // Journal of English as a Lingua Franca. 2020. Vol. 9. No. 1. P. 81-101. doi
Гостева Е. А., Ланин В. В. Разработка модуля извлечения информации из промышленных стандартов, in: Математика и междисциплинарные исследования – 2020. Пермь : Пермский государственный национальный исследовательский университет, 2020. С. 30-37. 
Viacheslav L., Elizaveta S. Gender Variation in The Discourse of Online Hotel Reviews: A Corpus-Based Semantic Analysis, in: 2020 IEEE 14th International Conference on Application of Information and Communication Technologies (AICT).: IEEE, 2020. С. 143-146. 
Learner Corpora and Language Teaching.: John Benjamins Publishing Company, 2021. 
Vinogradova O. I., Lyashevskaya O., P. I., Buzanov A. Correlations between accuracy, complexity, and task type: Learner corpus research, in: Learner Corpora and Language Teaching.: John Benjamins Publishing Company, 2021. 
Lyashevskaya O., Irina P., Olga V. Automated assessment of learner text complexity // Assessing Writing. 2021. No. 49. doi
Виноградова О. И., Виклова А. В. Межъязыковая интерференция при выборе видо-временных форм английских глаголов в эссе русскоязычных студентов: корпусное исследование, in: Межкультурное пространство: лингвистический и дидактический аспекты. Петрозаводск : Издательство ПетрГУ, 2021. С. 17-27. 
Виноградова О. И. Работа с языковыми корпусами в изучении иностранных языков, в обучении им и в их использовании. В сборнике Межкультурное пространство: лингвистическийи дидактический аспекты., in: Межкультурное пространство: лингвистический и дидактический аспекты. Часть 1. Пленарное заседание и секция «Межкультурная дидактика». Петрозаводск : Издательство ПетрГУ, 2021. С. 20-29. 
Межкультурное пространство: лингвистический и дидактический аспекты. Часть 2. Материалы секций "Межкультурная лингвистика", "Межкультурная транслатология" и студенческого научного форума. Пленарное заседание и секция «Межкультурная дидактика»..: Издательство ПетрГУ, 2021.