• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Точки роста в языковой системе: корпусные исследования и моделирование

Приоритетные направления развития: гуманитарные науки
2017
Подразделение: Школа лингвистики

Цель работы:

Точками роста называют зоны системных речевых сбоев, отражающие речевую вариативность и тем самым - тенденции развития языка. Исследование исходит из трактовки неслучайных нарушений рекомендательной нормы как полигона становления новых речевых тенденций. В рамках проекта пополняются и совершенствуются электронные ресурсы - корпуса речи носителей нестандартного языка: жителей регионов; детей из семей с домашним русским в иноязычном окружении; осваивающих академический регистр русского и английского языков студентов. Ресурсы обладают методическим и исследовательским потенциалом: позволяют анализировать и предупреждать ошибки, становятся основой речевой рефлексии преподавателя и студента, обнажают типологические параллели между русским и другими языками.

Цель исследования 2017 года заключалась в последовательном описании вариативности лексики и грамматики современной русской речи (на фоне английской речи носителей русского языка) с опорой на зоны речевых сбоев - ошибочных словоупотреблений и конструкций, появление которых знаменует возникновение зазора между системой и нормой, обнажает потенциал языкового развития. Особое внимание уделено функционированию компаративных конструкций, "легких" глаголов - результата семантического выветривания с потенциалом грамматикализации, координации элементов грамматической основы предложения, поведению лабильных глаголов, конструкций с негацией, избыточной вербализации пресуппозиции существования явления при помощи причастий: употребления причастий с семантикой бытийности или отношения говорящего, элементов лексической избыточности в речи изучающих академический регистр русского языка.

Используемые методы:

Тексты-источники для корпусных коллекций создаются информантами в направленной беседе (расшифровки устных интервью участников проекта с носителями регионального варианта русского языка), в ходе выполнения аудиторных и самостоятельных письменных учебных заданий (фиксируется речевая продукция инофонов, эритажных говорящих, студентов, осваивающих академический регистр русского и английского языков - компьютерный набор, текст набирает автор; дополнительный источник — письменные работы, переведенные в электронную форму участниками проекта).         

Корпус позволяет статистически обрабатывать большие массивы однородных данных, фиксировать диахронические изменения в лексике и грамматике, квалифицировать выдачу примеров в зависимости от типа текста и характера его атрибуции, уточнять запрашиваемый лексический и грамматический контекст.

Проект 2017 года включает совершенствование шаблонов для нестандартных лингвистических корпусов, описание сдвига нормы в узуальной практике в области функционирования имени и глагола, реконструкцию и моделирование правил – объективно существующих системных закономерностей, позволяющих описать отступления от рекомендательной схемы, регламентирующей речепорождение; совершенствование лингвистических корпусов (пополнение коллекций, оптимизацию аннотирования и поискового механизма), отладку и пополнение стилистического тренажера, автоматизацию описанных в ходе реализации проекта речевых правил; формирование учебных принципов, компетентностно-ориентированных лингвистических заданий, основанных на описании сдвига нормы в сопоставлении с нормативно организованной речью; описание особенностей функционирования языка в речи эритажных говорящих (несбалансированных билингвов), инофонов, носителей региолекта, осваивающих новый регистр русскоговорящих; актуальных тенденций развития современного русского языка, отраженных в речевой продукции, представленной в интернет-пространстве. Существенно, что в рамках предлагаемого подхода ошибка понимается не как постыдное и наказуемое нарушение правила, а как ценный языковой материал, обнажающий актуальные тенденции в развитии языковой системы.

Корпусы русских и английских учебных текстов. Cлушатели пишут тексты в рамках заданий к учебным дисциплинам, тексты снабжаются метаразметкой (сведениями об информанте в соответствии с подробной анкетой, отражающей релевантные социолингвистические параметры речевой продукции), пропускаются через морфологический анализатор (MYSTEM, программу, позволяющую распознавать словоизменительные классы, квалифицировать грамматическую форму слова), размечаются в программе Les Crocodiles 2.0, размеченные файлы добавляются в корпус.

Корпус эритажа (унаследованного языка) и речи инофонов. Тексты предоставлены преподавателями русского языка как иностранного. Представлены жанровые варианты речевой продукции: краткий свободный ответ на вопрос, аргументативное эссе по заявленной проблеме, мини-сочинение по представленному стимулу объемом в абзац, аналитическая заметка, отчет об аналитической работе, результат сопоставления, реферирования, аннотирования и комментирования текстов-источников. Указан уровень владения языком. Предусмотрена возможность расширения контекста. Возможно задать подкорпус по параметрам метаразметки: тексты одного информанта, тексты инофонов отдельно от текстов носителей эритажа, тексты одного жанра. Размечены ошибки в соответствии с типологией, разработанной в рамках КРУТ.

Региональный корпус. Пополняется за счет аудио- и видеозаписей, полученных в экспедициях. Проект 2017 года включал экспедицию в Тверскую область под рук. Ю. М. Кувшинской.

Эмпирическая база исследования:

 

  • расшифровки записей интервью в селах Тверской области
  • письменные студенческие работы на русском и английском языках, авторами которых являются студенты младших курсов
  • письменные работы студентов-инофонов и эритажных говорящих

 

Результаты работы:

  • пополнение корпусов нестандартной речи: 

Russian Error-Annotated Learner English Corpus - http://realec.org/  (REALEC)

Корпус письменных работ студентов бакалавриата НИУ ВШЭ представляет собой первый российский учебный корпус в свободном доступе, разработанный в школе лингвистики НИУ ВШЭ. Основной вид письменных текстов в этом корпусе – это эссе экзаменационного типа, собрание которых уже достигло нескольких тысяч текстов.

Первый этап работы с этим корпусом в Школе лингвистики НИУ ВШЭ (2012-2016 годы) показал широкие возможности ресурса как для студентов и преподавателей английского языка, так и для лингвистических наблюдений. Одновременно стала очевидной необходимость усовершенствования инструментов для работы с этим корпусом, для чего необходимо провести детальный анализ некоторых классов ошибок, из которых случаи неправильного выбора студентами английского слова или словосочетания принадлежат к самым частотным.

В предварительном исследовании ошибок такого рода в письменных текстах русскоязычных изучающих имеются три разные категории случаев неправильного выбора слова – это лексические ошибки, ошибки дискурсивной природы и морфо-синтаксические ошибки. Соответственно, в процессе анализа ошибок в студенческих эссе участники проекта вырабатывают рекомендации и создают тренажеры для студентов для распознания и профилактики появления таких ошибок, встраивают в корпус возможность удобной визуализации лексического наполнения эссе и разрабатывают особый интерфейс для различных групп пользователей, в частности удобный интерфейс для аннотаторов, основанный на оригинальном алгоритме распознавания подобных ошибок.

В 2017 году введено 2244 новых текста,  добавлено 2757 аннотаций.

В 2017 году заканчивается ввод экзаменационных эссе, написанных студентами в  2015 году, и их разметка, продолжается пополнение корпуса экзаменационными эссе 2016 года, разметка проверяется и исправляется, создаются новые автоматически сгенерированные тесты - два теста (50 вопросов и 60 вопросов) на глагольные формы  опробованы на студентах двух факультетов, работа над третьим (600 вопросов) из разных областей грамматики и лексики завершается; ведется работа над новыми интерфейсами в сторону большего комфорта пользования и большей информативности для пользователей во всех разделах. Сформирован новый состав студенческой рабочей группы, всем новым членам поставлены задачи.

Russian Learner Corus - http://www.web-corpora.net/RLC/(RLC)

В Русском учебном корпусе содержатся образцы устной и письменной речи двух категорий нестандартных говорящих на русском языке: изучающих русский язык как иностранный и так называемых эритажных говорящих. Для первой категории русский язык не является родным, представители же второй категории начали усваивать его в детстве как первый язык, но по разным причинам (в основном, это эмиграция) в качестве основного языка общения используют другой язык. Корпус позволяет производить поиск по лексико-грамматическим свойствам слова и сочетания, а также по разным типам отклонений от стандартной русской речи - от орфографических ошибок до выбора лексических единиц и грамматических конструкций. Лингвистический анализ и разметка осуществляются членами рабочей группы проекта.

Расширился круг зарубежных партнеров ресурса:

Мария Полински (Гарвардский университет)
Олеся Киселёва (университет Пенн Стейт) 
Евгений Деньгуб (языковая школа Миддлбери)
Ирина Дубинина (Брандейский университет) 
Анна Михайлова (университет штата Орегон) 
Алла Смыслова (Колумбийский университет)
Екатерина Протасова (Университет Хельсинки)
Анна Павлова (Майнцский университет им. Иоганна Гутенберга)
Анна Мёль (Университет Цюриха)
Анка Бергманн (Берлинский университет им. Гумбольдта)
Ирина Кор-Шаин (Университет Экс-Марсель)
Сухьен Ли (Сеульский национальный университет)
Светлана Славкова (Болонский университет)
Франческа Биаджини (Болонский университет)
Моника Перотто (Болонский университет) 
Светлана Соколова (Университет Тромсе)
Наталья Рингблом (Стокгольмский университет)
Хаяшида Риэ (Осакский университет)
Цунэто Сёго (Осакский университет)
Маргарита Казакевич (Осакский университет)
Назия Жанпеисова (Актюбинский университет им. С.Баишева) 
Екатерина Протасова (Университет Хельсинки) 
Александр Красовитцкий (Оксфордский университет)
Рашида Касымова (Казахский национальный университет им. аль-Фараби)
Аимгуль Казкенова (Казахский национальный педагогический университет им. Абая)

На данный момент в Корпусе представлены тексты, созданные нестандартными говорящими, для которых доминантными языками являются американский английский,немецкий (включая швейцарский вариант немецкого языка), французский, итальянский, 
сербский, японский, корейский, казахский, финский, норвежский, шведский, нидерландский.

Данные 2017 года

6067  текстов

1295278  слов

104823  предложений

46540  аннотаций

Корпус русских учебных текстов (КРУТ) http://web-corpora.net/learner_corpus/ (CoRST)

Корпус русских учебных текстов (КРУТ) – это коллекция текстов на русском языке, написанных студентами разных вузов. Общий объем корпуса составляет около 3,1 млн. слов. Тексты сопровождаются несколькими типами разметки (метатекстовой, морфологической разметкой и разметкой по ошибкам), что позволяет осуществлять поиск по корпусу.

Корпус русских учебных текстов является информационно-справочной системой, предназначенной для исследователей, преподавателей, студентов, а также для всех, кто интересуется проблемами современной русской грамматики, актуальными процессами в области лексики, морфологии и синтаксиса современного русского языка.

Учебные тексты написаны студентами разных вузов, бакалаврами и магистрантами. Основные типы текстов, представленных в корпусе, это курсовые, дипломные и выпускные квалификационные работы, эссе, аннотации, рефераты, конспекты, автобиографии, абзацы (тексты небольшого объема различного происхождения: домашние задания, ответы на вопросы и т.д.).

В корпусе представлена информация о том, в каком учебном году / семестре / модуле был написан текст и к какой сфере знания он относится. Сфера знания может не совпадать со специальностью студента. Например, если лингвист пишет эссе по истории, мы указываем и его основную специальность (лингвист), и «предмет», по которому написана работа (история).

В корпус были включены тексты студентов следующих специальностей: экономика, социология, политология, юриспруденция, психология, журналистика, лингвистика, история, филология, логистика, математика, философия. Как правило, в корпусе есть информация о поле и возрасте автора, а также о годе обучения (1 курс бакалавриата, 2 курс магистратуры и т.д.). Часть текстов снабжена информацией о том, в каком регионе проживал автор до 18 лет и является ли он билингвом.

Активно пополняется коллекция корпуса, совершенствуется разметка и интерфейс.

Статистика коллекции на декабрь 2017 года:

3677 текстов

3115212 слов

301079 предложений

27593 размеченных элементов

Корпус содержит тексты студентов 1-6 года обучения, 15 гуманитарных специальностей, 14 жанров.

В работе использовался язык программирования Python и свободно распространяемые библиотеки к нему.

Предварительная обработка текстов

Создана программа для обработки текстов выпускных квалификационных и дипломных работ, удаляющая информацию, не являющуюся важной или нужной для дальнейшей работы и разметки текста. Принимая на вход полный текст дипломной работы или ВКР, программа оставляет только текст основной части между частями «Введение» и «Заключение» включительно.

Резервная копия данных

Для сохранности корпуса создана резервная копия базы данных. В непредвиденных ситуациях (например, при технических неполадках платформы, на которой работает корпус) ресурс сохранит ненулевую версию.

Сохранено 3677 документов, из них 1618 имеют разметку.

Копия доступна для скачивания с Google-диска:

https://drive.google.com/file/d/0BwIdMhRFq5HoMmI2Y2dNU1ZDemc/view

Документация

Для разметчиков, программистов и администраторов последующих лет написана документация, позволяющая разобраться с техническими нюансами  и ознакомиться со структурой проекта на платформе web-corpora.

Ознакомиться с документацией можно по ссылке: https://github.com/acRnR/learner_corpus/wiki

Прототип корпуса фольклорных текстов (региолект Тверской области)

В 2017 году в ходе работы экспедиции записаны тексты в деревнях от информантов.

По результатам записей лета 2017 года осуществлены фрагментирование, расшифровка, разметка, ввод в таблицы для базы около 18 ч. аудио- и видеозаписей, около  300 текстов, записанных в

8 населенных пунктах (д. Крева, с. Малое Василево, пос. Приволжский, пос. Белый городок, с. Печетово, д. Береслово, д. Сельцы, д. Володарское) от 13 информантов (11 женщин от 1927 до 1947 г.р. и 2 мужчин, 1934 и 1947 г.р.).

  • аналитическое описание следующих узлов лексико-грамматической системы, порождающей речевую вариативность:

субкатегоризация русских экскламативов на основе анализа их структуры и интенций говорящего (Verbless kakoj-exclamatives in Russian: Evidence from Usage Data; синтаксически подчиненные восклицания в русском языке)

выявление базовых свойств русских метакомпаративов в типологической перспективе

обнаружение специфики глаголов с семантикой открытия-закрытия в языках различных типов

толкование несовпадений в речевой практике ХIХ века (на материале текстов Жуковского) и современном языке с опорой на цифровой анализ данных

объяснение порядка следования прилагательных разных семантических классов в русском языке в свете корпусных данных 

трактовка глагольного вида в преподавании русского как иностранного с опорой на корпусные данные

исчисление и обоснование вариантов координации по числу сказуемого с подлежащим — именной группой со словами «половина» и «теть»

классификация типов употребления наречий в функции распространителя адъективированных причастий в современном русском языке

типология стандартных и нестандартных метафорических переносов

осмысление особенностей поведения субъекта в дательном падеже в русской речи по данным истории языка

парадигматизация нормативных и окказиональных чередований согласных в современном русском

  • совершенствование стилистического тренажера

научно-исследовательская разработка адресована преподавателям курсов по риторике, академическому письму, литературному редактированию, культуре речи, современному русскому языку, русскому языку как иностранному с целью облегчить составление сфокусированных заданий для отработки навыков выбора точного слова нужного регистра,  корректировки лексической сочетаемости, структурирования грамматических конструкций, композиционной организации грамотного текста.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Ресурсыдают возможность получить достоверные и статистически представительные данные о варьировании лексики и грамматики в современной русской речи.

В полноценных корпусах нестандартной речи заинтересованы этнологи, антропологи, филологи, лингвисты, социологи, политологи, историки, культурологи, журналисты, переводчики, психологи, регионоведы - анализ узуса нестандартного типа позволяет выявить обусловленные актуальной речевой ситуацией изменения в языковой картине мира, менталитете говорящего и пишущего, речевые сдвиги, становящиеся основой развития языка.

Публикации по проекту:


Vlasova E. Prepositional phrases with dlja in non-standard varieties of Russian in Finland: evidence from the Russian Learner Corpus, in: Slavica Helsingiensia 52: Russian in the multilingual world Vol. 52: Russian in the multilingual world. Helsinki : Helsinki University Press, 2019.
Орехов Б. В. Объяснимы ли ошибки В.А. Жуковского с помощью анализа данных? // В кн.: Цифровая гуманитаристика: ресурсы, методы, исследования: материалы Междунар. науч. конф. (г. Пермь, 16–18 мая 2017 г.): в 2 ч. Ч. 2. Пермь : Издательство Пермского государственного национального исследовательского университета, 2017. С. 77-80.
Magomedova V., Slioussar N. Paradigm leveling: The decay of consonant alternations in Russian, in: Perspectives on Morphological Organization: Data and Analyses. Brill, 2017. Ch. 5. P. 123-137. doi
Bonch-Osmolovskaya A. A. From quantitative to semantic analysis: Russian construcitons with dative subjects in diachrony, in: Quantitative approaches to the Russian language / Отв. ред.: M. Kopotev, O. Lyashevskaya, A. Mustajoki. Routledge, 2018. doi P. 158-174.
Толдова С.Ю., Муханова Р. В. Порядок следования прилагательных разных семантических классов в русском языке в свете корпусных данных // В кн.: Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2017" Proceedings / Ed. by В. Селегей. Vol. 1. Issue 16 (23). M. : -, 2017. С. 429-440.
Rakhilina E. V. Structure des transferts métaphoriques, in: Verba sonandi : Représentation linguistique des cris d’animaux / Ed. by E. V. Rakhilina, J. Merle, I. Kor Chahine. Presses Universitaires de Provence, 2017. P. 267-276.
Вишенкова А. С. Безглагольные восклицания с "какой" в русском: корпусное исследование // В кн.: Корпусная лингвистика - 2017. СПб. : Издательство СПбГУ, 2017.
Бадрызлова Ю. Г. Опыт корпусного моделирования факторов метафоричности на примере русских глаголов // В кн.: Компьютерная лингвистика и интеллектуальные технологии: По мате­риалам ежегодной международной конференции «Диалог» (Москва, 31 мая — 3 июня 2017 г.). Вып. 16 (23): В 2 т. Т. 2. М. : Изд-во РГГУ, 2017. С. 30-44.
Кошелева Д. Л., Ляшевская О. Н. Наречие в функции распространителя адъективированных причастий в современном русском языке // В кн.: Гуманитарное образование и наука в техническом вузе. Ижевский государственный технический университет им. М.Т. Калашникова, 2017.
Рахилина Е. В. Рецензия на сборник «Контенсивные аспекты языка: константность и вариативность» Сборник статей в честь О.А. Сулеймановой / Отв. ред.: д.ф.н., проф. Т.Д. Шабанова. – М.: ФЛИНТА, 2016. – 218 с. // Вестник Московского городского педагогического университета. Серия: Филология. Теория языка. Языковое образование. 2017. № 3 (27). С. 119-128.
Slavica Helsingiensia 52: Russian in the multilingual world Vol. 52: Russian in the multilingual world. Helsinki : Helsinki University Press, 2019.
Ольшевская М. Ю. Использование русского учебного корпуса в преподавании РКИ: вид глагола // Международный аспирантский вестник. Русский язык за рубежом. 2018. № 1. С. 13-18.
Rakhilina E. V., Plungian V. I say: Some issues in studying 19-century Russian // Russian linguistics. 2018. Vol. 42. No. 2. P. 123-136. doi
Olga Vinogradova, Sidorova M., Zhornik D., Kashkin E. Verbs of Closing and Opening: Towards a Lexical Typology, in: Societas Linguistica Europaea - 50th Annual Meeting. Zürich : , 2017. P. 250-252.