• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Интервью со стажером-исследователем из Лаборатории учебных корпусов

Екатерина Санникова рассказала о работе над проектом по классификации ошибок в учебных текстах с помощью нейросетей, деятельности лаборатории и карьерных планах.

Интервью со стажером-исследователем из Лаборатории учебных корпусов

Екатерина Санникова

Расскажи о целях и направлениях деятельности НУЛа.

В Научно-учебной лаборатории Учебных корпусов мы занимаемся корпусной лингвистикой. Сейчас у нас уже есть достаточно большой корпус англоязычных текстов, написанных студентами Вышки во время Независимого экзамена по английскому языку. Многие тексты в этом корпусе размечены по ошибкам, а сами ошибки разделены на примерно 50 классов. Значительная часть нашей деятельности сосредоточена на корпусных системах: как на инструментах для автоматического исправления текстов, так и для автоматической классификации.

А прямо сейчас мы работаем над проектом по оценке связности (coherence) текстов на английском языке, написанных учащимися и носителями. Для этого мы разметили часть текстов вручную по пяти параметрам связности, а сейчас работаем над созданием системы, которая сможет предсказывать значения этих параметров автоматически.

Как ты попала в НУЛ и над какими проектами работаешь сейчас?

Я попала в НУЛ после прохождения летней практики по разметке студенческих текстов на английском языке. В моём случае это было исправление и классификация ошибок в текстах, но сейчас мы реже проводим такие практики, поскольку многое уже автоматизировано. Зато в этом году в качестве летней практики мы предлагали разметку текстов по параметрам связности (как раз для нашего текущего проекта), так что мы всегда ищем лишние руки для корпусной деятельности. А вообще для того, чтобы попробовать поработать в лаборатории, не дожидаясь летней практики, можно связаться с Радой Трнавац или Эдуардом Станиславовичем Клышинским.

За время работы в НУЛе я в основном занималась автоматизацией обработки текстов. Мы начинали с rule-based подходов, то есть с написания правил, основанных на синтаксических и морфологических парсерах, для автоматического нахождения определённых типов ошибок в текстах (например, это можно сделать для ошибок согласования подлежащего и сказуемого или для порядка главных членов предложения). В последние несколько лет мы активно подключаем нейросети к анализу более сложных случаев, когда поверхностного морфологического и синтаксического анализа недостаточно. Например, в моём дипломе я занималась классификацией с помощью BERT тех ошибок, которые нельзя «подобрать» обычными правилами.

Собрание НУЛа Учебных корпусов
НУЛ Учебных корпусов, ВШЭ

Над какими исследовательскими проектами работают твои коллеги?

Поскольку у нас достаточно небольшая лаборатория, обычно мы занимаемся одним и тем же проектом; правда, зачастую у каждого своя зона ответственности. Если вам привычнее работать с грамматическими аспектами текста, вы можете анализировать предложения на предмет орфографических или синтаксических ошибок; если вам ближе семантика, вы можете сфокусироваться только на классификации предложений с семантической точки зрения. Самое сложное — это провести границу между семантикой и грамматикой. 

В планах на следующий год у нас совместная с МИЭМ работа над интерфейсом поиска по корпусу: мы хотим его улучшить, ускорить и дать возможность отфильтровывать по большему количеству параметров. 

Какие методики и инструменты используются в лаборатории для анализа и оценки студенческих текстов?

Несколько лет назад мы создали инструмент, который умеет предсказывать уровень студента по шкале CEFR на основании эссе. Под капотом у него несколько десятков параметров, по каждому из которых он выносит оценку, из которых потом составляет общий вердикт. 

Для внутреннего пользования у нас есть нейросеть, основанная на T5, которая умеет исправлять ошибки в студенческих текстах — а cснадстройкой в виде нейросети, основанной на BERT, умеющая классифицировать найденные в тексте ошибки в парадигме корпусных тегов. 

Как НУЛ сотрудничает с другими факультетами или университетами?

В нашем НУЛе работают преподаватели и студенты из Нижегородского и Пермского кампусов ВШЭ, а ещё иногда мы предлагаем общевышкинские проекты, в которых могут поучаствовать студенты других факультетов. Например, над одним из прошлых проектов я работала со студентами ФКН, и у нас получилось достаточно продуктивное сотрудничество! Не считая того, что я время от времени побаивалась, что они осудят мой код с высоты своей программистской башни…

А ещё у нас в НУЛе бывают семинары приглашённых специалистов из других корпусов, других университетов и стран. В этом году мы даже вместе с ними добавили свои тексты в общий пул текстов L2 для shared task конференции Natural Language Processing for Computer-Assisted Language Learning. 

Разрабатываете ли вы какие-либо open source инструменты для улучшения навыков письменной речи студентов?

Много лет мы работаем над инструментом под рабочим названием ADWISER — он в целом вписывается в ту деятельность лаборатории, которую я описала. ADWISER анализирует текст и подсвечивает в нём те места, в которых, по его мнению, присутствуют ошибки, а также предоставляет базовую характеристику ошибок с точки зрения принадлежности их к одному из пяти классов: грамматика, орфография, синтаксис, дискурс или семантика. Я уже видела несколько пилотных веб-версий этого инструмента; в будущем мы планируем представлять его преподавателям и студентам ВШЭ для помощи при написании и оценке текстов.

Какие у тебя карьерные планы? Планируешь оставаться в академии или развиваться в индустрии, например?

Сейчас я параллельно работаю лингвистом-разработчиком в одной телеком-компании и готовлюсь к поступлению в профильную магистратуру в следующем учебном году. Так что пока расставаться с академией, а в особенности с корпусной лингвистикой планов у меня нет. 

 

Редакторы: Мария Бочарова, Агнесса Фомина.