• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Корпусные исследования границ речевого варьирования: от аграмматизма к норме

Приоритетные направления развития: гуманитарные науки
2015

Цель работы 2015 года: распространение полученных в 2012-2014 годах результатов в области формирования текстовых коллекций и совершенствования поискового инструментария на комплекс создаваемых и оптимизируемых ресурсов – нестандартных лингвистических корпусов.

Проект включал формирование многоуровневой базы речевых сбоев – разнопрофильного пополняемого архива "отрицательного языкового материала" (Л. В. Щерба), позволяющего анализировать развитие языковой системы в речевой среде. В фокусе внимания 2015 года находилось моделирование системы правил, отражающих функционирование языковой системы в условиях современных коммуникационных ситуаций: в интернет-пространстве (анализ текстов из блогов и описание формирования прогрессивной речевой нормы, фиксируемой в интернет-коммуникации), при изучении русского языка как иностранного (РКИ для инофонов) и как унаследованного (для семей, проживающих в иноязычном окружении), в регионах (дагестанский русский), в учебной ситуации (при написании реферативных и исследовательских работ в академическом регистре по-русски и по-английски в учебной ситуации студентами первых лет обучения). Усилия участников проекта были сосредоточены на описании диапазона варьирования средств выражения намерений говорящего или пишущего в реализации нормативных установок, продиктованных языковой системой и средой ее функционирования.

Используемые методы разработаны в рамках теории эрратологии (грамматики ошибок) и корпусной лингвистики. Корпусное исследование границ речевого варьирования основано на данных создаваемых в рамках проекта коллекций нестандартных текстов, снабженных специальной разметкой для автоматического поиска данных и отражающих ненормативное, с точки зрения предписывающей нормы (словарей и грамматик), словоупотребление и построение речевых конструкций.

К пополняемым корпусам относятся

  • корпус речи эритажных говорящих (носителей русского языка, воспитывающихся в семьях эмигрантов из РФ в окружении иного доминирующего идиома - государственного языка принявшей семью страны);
  • корпус речи инофонов, изучающих русский язык как иностранный (непервый язык -второй, третий и под.);
  • корпус речи носителей регионального варианта русского языка (преимущественно жителей Дагестана);
  • корпус наивных переводов с русского и на русский (преимущественно с английского);
  • корпус академического письма на английском языке как неродном (речевая продукция студентов, изучающих иностранный язык);
  • корпус русских учебных текстов (учебные и исследовательские работы, написанные студентами, осваивающими научный регистр);
  • корпус блогов (речевой продукции пользователей интернет-пространства).

В 2015 году продолжалось пополнение коллекций (источников, лежащих в основе корпусов нестандартной русской речи) и совершенствование разметки, облегчающей поиск необходимой информации по запросу.

Ключевые категории исследования – ошибка, речевой сбой, аграмматизм, вариант употребления языкового средства: основным материалом при формировании коллекций корпусов нестандарного русского языка и при изучении актуальных для современного русского языка тенденций в области грамматики и лексики в рамках проекта являются широко понимаемые отступления от рекомендательной нормы, т.н. "отрицательный языковой материал" (Л. В. Щерба), послуживший становлению особой области исследований речевого варьирования и развития языка – "грамматики ошибок" (А. Фрей).

Эмпирическая база исследования

Сбор данных: полевая составляющая. Тексты-источники продуцируются информантами в направленной беседе (расшифровки устных интервью участников проекта с носителями регионального варианта русского языка в селах Дагестана и в Махачкале), в ходе выполнения аудиторных и самостоятельных письменных учебных заданий (речевая продукция инофонов, наивных переводчиков, эритажных говорящих, студентов, осваивающих академический регистр русского языка - компьютерный набор, текст набирает автор); спонтанная речевая продукция блогеров извлекается из интернет-пространства.

Корпус русских учебных текстов (КРУТ). Cлушатели пишут тексты в рамках заданий к учебным дисциплинам, тексты снабжаются метаразметкой (сведениями об информанте в соответствии с подробной анкетой, отражающей релевантные социолингвистические параметры речевой продукции), пропускаются через морфологический анализатор (MYSTEM, программу, позволяющую распознавать словоизменительные классы, квалифицировать грамматическую форму слова), размечаются в программе Les Crocodiles 2.0, размеченные файлы добавляются в корпус.

Корпус наивных переводов. Тексты порождаются в процессе работы над переводом в рамках учебных дисциплин на филологических отделениях высшей школы РФ (охвачены разные регионы) и в студиях переводчиков. Представлены переводные варианты одного оригинала, написанные разными авторами-переводчиками, что позволяет сопоставлять варианты выбора средств выражения и стратегий построения текста на микро-(абзацном) и макро-уровне. Зоны риска речевых сбоев (системных, прогнозируемых ошибок, вызванных типологически универсальными законами речепорождения) демонстрируют повышенную вариативность подхода к выбору речевых средств (лексических и грамматических единиц).

Корпус эритажа (унаследованного языка) и речи инофонов. Тексты предоставлены преподавателями русского языка как иностранного. Представлены жанровые варианты речевой продукции: краткий свободный ответ на вопрос, аргументативное эссе по заявленной проблеме, мини-сочинение по представленному стимулу объемом в абзац, аналитическая заметка, отчет об аналитической работе, результат сопоставления, реферирования, аннотирования и комментирования текстов-источников. Указан уровень владения языком. Предусмотрена возможность расширения контекста. Возможно задать подкорпус по параметрам метаразметки: тексты одного информанта, тексты инофонов отдельно от текстов носителей эритажа, тексты одного жанра. Размечены ошибки в соответствии с типологией, разработанной в рамках КРУТ.

Региональный корпус. Пополняется за счет аудио- и видеозаписей, полученных в экспедициях в села Дагестана в беседах с носителями регионального варианта русского языка, расшифрованных и закодированных участниками проекта для облегчения автоматического поиска данных.

Корпус английского академического письма . Методика исследования: корпусные методы анализа лингвистических данных. Корпус студенческих работ (сочинений, ответов на вопросы в аудитории) позволяет статистически обрабатывать большие массивы однородных данных, фиксировать диахронические изменения в лексике и грамматике, квалифицировать выдачу в зависимости от типа текста и характера его атрибуции, уточнять запрашиваемый лексический и грамматический контекст.

Результаты работы. Проект 2015 года включал разработку шаблонов для нестандартных лингвистических корпусов, описание сдвига нормы в узуальной практике в области функционирования имени и глагола, реконструкцию и моделирование правил – объективно существующих системных закономерностей, позволяющих описать отступления от прескриптивной кодифицированной схемы, регламентирующей речепорождение; совершенствование лингвистических корпусов (пополнение коллекций, оптимизацию аннотирования и поискового механизма), отладку и пополнение стилистического тренажера, автоматизацию описанных в ходе реализации проекта речевых правил; формирование учебных принципов, компетентностно-ориентированных лингвистических заданий, основанных на описании сдвига нормы в сопоставлении с нормативно организованной речью; аналитическое описание особенностей речи казахско-русских говорящих; описание особенностей функционирования языка в речи эритажных говорящих (несбалансированных билингвов), инофонов, носителей региолекта, осваивающих новый регистр русскоговорящих, актуальных тенденций развития современного русского языка, отраженных в речевой продукции, представленной в интернет-пространстве. Существенно, что в рамках предлагаемого подхода ошибка понимается не как постыдное и наказуемое нарушение правила, а как ценный языковой материал, обнажающий актуальные тенденции в развитии языковой системы.

Задача поискового шаблона: группировать выдачу примеров из коллекции размеченного корпуса по определенным комбинациям контекстных признаков, которые отличаются частотностью и признаются пользователями релевантными для исследовательских задач. Пример: глагол - предлог - имя в винительном падеже, глагол - имя в дательном падеже - имя в винительном падеже. Опираясь на выдачи по N-граммам (сочетаемостным двух-, трех-, четырех-, пятисловным комбинациям) со знаками препинания и на разметку тегами lex (лемма) и gr (часть речи и грамматика), а также на синтаксическую разметку, при помощи команды grep формируем шаблон. Алгоритм действий разработчика шаблона: получить список стандартных скетчей в SketchEngine; сформировать список скетчей, которых не хватает для лексикографических задач; выделить все N-граммы, соответствующие стандартным скетчам в SketchEngine, приписать тег sketch="..."; для N-грамм, оставшихся неразмеченными, установить, какие морфологические и синтаксические теги релевантны, и собрать статистику по их комбинациям; по статистике отобрать продуктивные (возвращаемся к началу цикла) -- "автоматический путь".

Степень внедрения результатов НИР.

В процессе реализации проекта лингвистической лаборатории по корпусным технологиям факультета гуманитарных наук НИУ ВШЭ "Корпусные исследования границ речевого варьирования: от аграмматизма к норме" (Corpus studies of language variation: from deviations to linguistic norm) в 2015 году достигнуты следующие практические результаты:

  1. разработаны и внедрены шаблоны для нестандартных лингвистических корпусов. Под шаблоном понимается совокупность программных операций, позволяющих организовать поисковые команды, группирующие выдачу языкового материала из корпуса по заданным комбинациям контекстных признаков, которые отличаются частотностью и признаются пользователями релевантными для исследовательских задач. Примером цепочек, поддающихся поиску при шаблонизации, являются, в частности, следующие: глагол - предлог - имя в винительном падеже, глагол - имя в дательном падеже - имя в винительном падеже. Шаблоны применены в нестандартных корпусах впервые;
  2. усовершенствованы лингвистические корпуса (дополнены коллекции, оптимизированы аннотирование и поисковый механизм);
  3. в существенной мере отлажен и пополнен стилистический тренажер для диагностики речевой грамотности и формирования навыков редактирования академического текста;
  4. частично автоматизированы описанные в ходе реализации проекта речевые правила;
  5. сформулированы основные учебные принципы и на их базе разработаны пробные компетентностно-ориентированные лингвистические задания, основанные на описании сдвига нормы в сопоставлении с нормативно организованной речью (задания применяются в учебных аудиториях НИУ ВШЭ и на уроках в лицее НИУ ВШЭ);
  6. создана пропедевтическая среда, обеспечивающая формирование у говорящего и пишущего по-русски навыка рефлексии над вариативностью употребления лексических и грамматических единиц: на базе корпусов нестандартного русского и стилистического тренажера;
  7. реконструированы и сформулированы некоторые основные не осознаваемые говорящим и пишущим правила, подчиняющие себе речепорождение в соответствии с прогрессивной нормой (точками роста, позволяющими наблюдать за развитием языковой системы в естественной для ее функционирования среде).

Публикации по проекту:


Donum semanticum: Opera linguistica et logica in honorem Barbarae Partee a discipulis amicisque Rossicis oblata / Ed. by P. Arkadiev, I. Kapitonov, Yu. Lander, E. V. Rakhilina, S. Tatevosov. M. : Languages of Slavic culture, 2015.
Плисецкая А. Д. «Свои» и «чужие» в московской предвыборной кампании 2013: стратегия сегментации аудитории // В кн.: Философия. Язык. Культура / Отв. ред.: В. В. Горбатов, А. В. Марей. Вып. 6. СПб. : Алетейя, 2015. Гл. 36. С. 449-463.
Плисецкая А. Д., Филимонов К. В. Фрейминг и рефрейминг в речевых стратегиях американских политических лидеров // Вестник Московского университета. Серия 21: Управление (государство и общество). 2015. № 4. С. 160-176.
Рахилина Е. В. Стилистически маркированные глаголы в русском языке: совать-сунуть // Вестник Томского государственного университета. 2015
Кутузов А. Б., Кузьменко Е. А. Использование корпусных технологий для изучения ошибок: learner corpora на факультете филологии НИУ ВШЭ // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2015. № 1. С. 21-26.
Kuznetsova J., Rakhilina E. V. Genitive of cause and cause of genitive, in: Donum semanticum: Opera linguistica et logica in honorem Barbarae Partee a discipulis amicisque Rossicis oblata / Ed. by P. Arkadiev, I. Kapitonov, Yu. Lander, E. V. Rakhilina, S. Tatevosov. M. : Languages of Slavic culture, 2015. Ch. 10. P. 137-147.
Ахапкина Я. Э. Прикладные аспекты эрратологии: грамматика ошибок и речевая практика (конструкция "когда ... то") // В кн.: Психолингвистические аспекты изучения речевой деятельности. Екатеринбург : Издательство Екатеринбургского университета, 2015. С. 196-208.
Kuznetsova J. Genitive of cause and cause of genitive, in: Donum semanticum: Opera linguistica et logica in honorem Barbarae Partee a discipulis amicisque Rossicis oblata / Ed. by P. Arkadiev, I. Kapitonov, Yu. Lander, E. V. Rakhilina, S. Tatevosov. M. : Languages of Slavic culture, 2015. Ch. 10. P. 135-146.
Kutuzov A. B., Kuzmenko E. Comparing Neural Lexical Models of a Classic National Corpus and a Web Corpus: The Case for Russian, in: Computational Linguistics and Intelligent Text Processing, Lecture Notes in Computer Science Vol. 9041. Springer, 2015. P. 47-58.
Kutuzov A. B., Kuzmenko E. Semi-automated typical error annotation for learner English essays: Integrating frameworks, in: Proceedings of the 4th workshop on NLP for Computer Assisted Language Learning at NODALIDA 2015, Vilnius, 11th May, 2015 Issue 114. Linköping University Electronic Press, 2015. P. 35-41.
Kutuzov A. B., Andreev I. Texts in, meaning out: neural language models in semantic similarity task for Russian, in: Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference “Dialogue” (2015) Issue 14(21). M. : Russian State University for the Humanitie, 2015. P. 143-154.
Ахапкина Я. Э. Рефлексивные глаголы «убираться» и «играться»: кодификация и узус // Труды института русского языка им. В.В. Виноградова. 2015. № 6. С. 392-412.
Dobrushina N. The Verbless Subjunctive in Russian // Scando-Slavica. 2015. Vol. 61. No. 1. P. 73-99. doi
Daniel M. Stem initial alternation in Russian third person pronouns: variation in grammar, in: Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2015) / Отв. ред.: В. Селегей. М. : Изд-во РГГУ, 2015. P. 95-103.
Slioussar N., Magomedova V. Stem-final consonant mutations in modern Russian // Morphology. 2016
Corpus Linguistics 2015: Abstract Book. Lancaster : Lancaster University Press, 2015.
Виноградова О. И., Кашкин Е. В. ЧТО ВИДИТ СЛЕПОЙ И СЛЫШИТ ГЛУХОЙ: К ЛЕКСИЧЕСКОЙ ТИПОЛОГИИ СЛОВ ДЛЯ ОТСУТСТВИЯ ЧУВСТВЕННОГО ВОСПРИЯТИЯ // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2016. № 3. С. 92-98.
Zevakhina N., Dzhakupova S. Russian metalinguistic comparatives: a functional perspective / NRU HSE. Series WP BRP "Linguistics". 2015. No. 39. doi
Zevakhina N., Dzhakupova S. Corpus of Russian student texts: design and prospects, in: Материалы 21-й Международной конференции по компьютерной лингвистике "Диалог". М. : Изд-во РГГУ, 2015.
Рахилина Е. В. Степени сравнения в свете русской грамматики ошибок // Труды института русского языка им. В.В. Виноградова. 2015. № 6. С. 310-333.
Plisetskaya A. D. Conceptualization of migration during Moscow mayor campaign in 2013, in: XVI Апрельская международная научная конференция по проблемам развития экономики и общества: в 4 кн. / Отв. ред.: Е. Г. Ясин. Кн. 3. М. : Издательский дом НИУ ВШЭ, 2016. P. 422-430.
Volkova A. A. Reflexivity in Meadow Mari: Binding and Agree // Studia Linguistica. 2017. Vol. 71. No. 1-2. P. 178-204. doi
Vinogradova O. I. Learner Corpora Researches Review (trends observed in the 8th conference CORPUS LINGUISTICS - 2015) // Journal of Language and Education. 2015
Апресян В. Ю. Cвязь семантических и коммуникативных свойств языковых единиц // Компьютерная лингвистика и интеллектуальные технологии. 2015. Т. 1. С. 2-18.
Vinogradova O. I., Kashkin E. The domain of surface texture Ch. 2.
Пужаева С. Ю., Зевахина Н. А., Джакупова С. С. Контаминация конструкций в речи нестандартных русскоговорящих на материале корпуса русских учебных текстов // В кн.: Труды Международной научной конференции "Корпусная лингвистика-2015". СПб. : Издательство СПбГУ, 2015. С. 390-397.