• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Версия для слабовидящихЛичный кабинет сотрудника ВШЭПоискМеню

Автоматизированная проверка текста, написанного на английском языке русскоязычными авторами (ADWISER)

Приоритетные направления развития: право, гуманитарные науки
2019

Цель исследования

С целью изучения роли интерференции с родным языком в процессе овладения иностранным языком составить системное описание базовых механизмов межъязыковой интерференции и их места в процессе освоения нового языка на базе исследований и статистических подсчетов случаев проявления интерференции с родным русским языком в текстах учебных корпусов устной и письменной научной речи студентов НИУ ВШЭ. На основе этих наблюдений разработать средства автоматического определения лингвоспецифичных ошибок в английском языке в письменных текстах русскоязычных изучающих в виде средства автоматизированного сопровождения порождения письменных текстов.

Провести исследование учебных корпусов в сравнении с образцом, а именно: изучение маркеров научного стиля, характерных для устной и письменной речи, позволит изучить их реализацию в речи студентов, а также сравнить полученные данные с речью носителей языка.

Выявленные различия в использовании маркеров позволят разработать ряд рекомендаций для студентов, изучающих английский язык, и для их преподавателей.

Используемые методы: 

  • извлечение всех предложений в корпусе с определенной конструкцией; 
  • разметка выдачи в отношении выделения правильных и неправильных предложений, а также в отношении возможных контекстных черт, способствующих возникновению ошибки или предотвращающих ее возникновение; 
  • опробование разных частеречных таггеров для достижения лучших результатов;
  • написание программы для извлечения контекстов, в которых вероятность появления ошибки высока; 
  • разметка вторичной выдачи с целью выстраивания ограничений на включение контекста в число подозрительных и многоэтапная отладка программы по результатам появления условий; 
  • соединение в систему всех программ с адаптацией визуализации при пересечении областей ошибки. 

Поскольку работа с разными уровнями языка имеет различную алгоритмическую сложность, для работы над автоматизированными средствами будет применяться широкий круг программных методов: от обработки текста регулярными выражениями на языке программирования Python с использованием библиотек NLTK, TreeTagger, TensorFlow до применения нейронных сетей глубинного обучения со сложной архитектурой.

Эмпирическая база исследования

Учебные корпуса НИУ ВШЭ: REALEC, RLC, пермские учебные и экспертные корпуса по 6 предметным областям.

Результаты работы

Создана система ADWISER автоматизированного сопровождения порождения письменных текстов, позволяющая идентифицировать в учебных текстах 12 типов ошибок.

Создана онлайн-платформа для работы этой системы.

Создана платформа для автоматизированной генерации и проведения тестов по английскому языку. 

Создана платформа для предоставления справочных материалов. Она будет предоставляться пользователям системы ADWISER и аннотаторам в процессе разметки ошибок в корпусе. Имеется связь этой платформы с программой автоматической генерации тестовых вопросов, также созданной сотрудниками лаборатории.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

ADWISER можно рекомендовать преподавателям и студентам для автоматической проверки работ и совершенствования навыков письма как на занятии, так и в самостоятельной работе по овладению английским языком.

Базы данных, собранные в лаборатории  из текстов корпуса REALEC, можно рекомендовать как исследователям освоения изучаемого языка и межъязыковой интерференции, так и для разработки дидактических материалов на основе наблюдаемых паттернов ошибок.

Публикации по проекту:


Learner Corpora and Language Teaching. Gießen : John Benjamins Publishing Company, 2019. 
Olga V. To automated generation of test questions on the basis of error annotations in EFL essays: a time-saving tool?, in: Learner Corpora and Language Teaching. Gießen : John Benjamins Publishing Company, 2019. С. 29-48. 
Vinogradova O. I., Buzanov A., undefined., Overnikova D., undefined., Сигдел Э. С. POS tagger evaluation for the automated text analysis and identification of learner error, in: ПРОСТРАНСТВО НАУЧНЫХ ИНТЕРЕСОВ: ИНОСТРАННЫЕ ЯЗЫКИ И МЕЖКУЛЬТУРНАЯ КОММУНИКАЦИЯ - СОВРЕМЕННЫЕ ВЕКТОРЫ РАЗВИТИЯ И ПЕРСПЕКТИВЫ.: Буки Веди, 2019. С. 44-49. 
Lanin V., Lyadova L. N., Shalyaeva I. Storing Multifaceted Ontologies with Natural Language Addressing, in: The 13th IEEE International Conference on Application of Information and Communication Technologies (AICT2019): / Conference Proceedings. Baku : The Institute of Electrical and Electronics Engineering, Inc., 2019. С. 62-67. 
Olga I. V., Olga N. L., Irina M. P. Inspector: The Tool For Automated Assessment Of Learner Text Complexity / Высшая школа экономики. Series WP BRP 55/LNG/2017 "". "LNG". 2019. No. 79. 
Гостева Е. А., Lanin V., Фалалеева В. С. Design of System for Intelligent Search in Industrial Standards, in: 2019 IEEE 21st Conference on Business Informatics (CBI).: IEEE Computer Society, 2019. С. 47-50. 
Pospelova K., Viklova A., Vinogradova O. I. What’s in a comma: Corpus study of punctuation errors and L1 interference, in: Learner Corpus Conference. LCR 2019. Book of Abstracts., 2019. С. 0-20. 
Виноградова О. И., Виклова А. В., Поспелова К. В. Глаголы падения в английском языке: данные корпусов и типология // Acta Linguistica Petropolitana. Труды института лингвистических исследований. 2020. Т. 1. № 16. C. 115-151. doi