• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Речевая система нестандартного носителя языка

Приоритетные направления развития: гуманитарные науки
2018
Подразделение: Школа лингвистики

В фокусе внимания проекта 2018 года находилась языковая система нестандартного говорящего и пишущего, то есть временный конструкт, формирующийся в сознании носителя языка, осваивающего новые регистры; инофона, овладевающего русским языком; носителя региолекта и социолекта; эритажного говорящего.

Цель работы

Целью проекта являлось обнаружение специфических и типичных черт этой системы, описание индивидуального варьирования речевых стратегий, средств выражения замысла и системных тенденций в развитии нестандартных вариантов языка на фоне речевого стандарта.

Используемые методы

На протяжении реализации проекта тексты-источники для корпусных коллекций создаются информантами в направленной беседе (интервью записываются и расшифровываются участниками проекта), а также в ходе выполнения аудиторных и самостоятельных (домашних) письменных учебных заданий. Коллекции позволяют регистрировать речевую продукцию инофонов, наивных переводчиков, эритажных говорящих, студентов, осваивающих академический регистр русского языка, школьников. Компьютерный набор текста  осуществляет автор — нестандартный говорящий и пишущий.

Корпус позволяет статистически обрабатывать большие массивы однородных данных, фиксировать диахронические изменения в лексике и грамматике, квалифицировать выдачу в зависимости от типа текста и характера его атрибуции, уточнять запрашиваемый лексический и грамматический контекст.

Проект 2018 года включает реконструкцию и моделирование правил – объективно существующих системных закономерностей, позволяющих описать отступления от рекомендательной схемы, регламентирующей речепорождение нестандартным говорящим и пишущим; совершенствование лингвистических корпусов (пополнение коллекций, оптимизацию аннотирования и поискового механизма), отладку и пополнение стилистического тренажера, автоматизацию описанных в ходе реализации проекта речевых правил; формирование учебных принципов, компетентностно-ориентированных лингвистических заданий, основанных на описании сдвига нормы в сопоставлении с нормативно организованной речью; описание особенностей функционирования языка в речи эритажных говорящих (несбалансированных билингвов), инофонов, осваивающих новый регистр русскоговорящих; актуальных тенденций развития современного русского языка, отраженных в речевой продукции, представленной в интернет-пространстве. Существенно, что в рамках предлагаемого подхода ошибка понимается не как постыдное и наказуемое нарушение правила, а как ценный языковой материал, обнажающий актуальные тенденции в развитии языковой системы.

Эмпирическая база исследования

В ходе проекта создаются и совершенствуются лингвистические корпуса нестандартной речи:

Корпусы русских и английских учебных текстов (КРУТ, REALEC). Cлушатели пишут тексты в рамках заданий к учебным дисциплинам, тексты снабжаются метаразметкой (сведениями об информанте в соответствии с подробной анкетой, отражающей релевантные социолингвистические параметры речевой продукции), пропускаются через морфологический анализатор (MYSTEM, программу, позволяющую распознавать словоизменительные классы, квалифицировать грамматическую форму слова), размечаются в программе Les Crocodiles 2.0, размеченные файлы добавляются в корпус.

Корпус эритажа (RLC) (унаследованного языка) и речи инофонов. Тексты предоставлены преподавателями русского языка как иностранного. Представлены жанровые варианты речевой продукции: краткий свободный ответ на вопрос, аргументативное эссе по заявленной проблеме, мини-сочинение по представленному стимулу объемом в абзац, аналитическая заметка, отчет об аналитической работе, результат сопоставления, реферирования, аннотирования и комментирования текстов-источников. Указан уровень владения языком. Предусмотрена возможность расширения контекста. Возможно задать подкорпус по параметрам метаразметки: тексты одного информанта, тексты инофонов отдельно от текстов носителей эритажа, тексты одного жанра. Размечены ошибки в соответствии с типологией, разработанной в рамках КРУТ.

Корпус региональной речи(фольклорных текстов). Интервьюер записывает речь информанта на диктофон, расшифровывает и кодирует для включения в корпусную коллекцию, снабжает метаданными.

Результаты работы

Результаты, полученные в ходе реализации проекта в области теории:

  • в проекте Русский учебный корпус (RLC) http://www.web-corpora.net/RLC/ интерпретированы микросинтаксические кальки с доминантного языка, инкорпорированные в грамматическую систему осваиваемого русского; классифицированы системные ошибки студентов, изучающих русский язык как иностранный (РКИ), в зависимости от уровня владения языком (начального знакомства с идиомом, продолжения освоения языка, совершенствования языкового и речевого навыков разных ступеней);
  • в проекте Корпус русских учебных текстов (CoRST) http://web-corpora.net/learner_corpus/ в результате анализа предикативного согласования с квантифицированными именными группами, возглавляемыми существительными (ряд, половина, часть, множество), определена зависимость выбора формы сказуемого и степени колебания в выборе этой формы от морфосинтаксических и семантических свойств вершины --- кванторного существительного;  выявлено влияние факторов контекста и  зафиксирована динамика изменений в выборе формы сказуемого на протяжении XIX-XX вв.; выявлены грамматические ограничения и семантические особенности конструкции нашел чем удивить, определено ее место в типологическом контексте подчиненных конструкций с восклицательной интерпретацией;
  • в проекте  Корпус ошибок носителей русского языка, изучающих английский язык (REALEC) http://realec.org/ выявлены типичные ошибки в английских текстах,  выстраивающиеся в систему особенностей русского английского языка (в результате интерференции двух систем), определена корреляция между показателями в академическом письме на русском языке и уровнем оценки за письменную часть экзамена по английскому языку.

Результаты, полученные в области методологии организации корпусных ресурсов:

  • в проекте Русский учебный корпус (RLC) http://www.web-corpora.net/RLC/ составлена кодировка для каждого пункта метаданных, предназначенная для использования вместо псевдонимов анонимных авторов коллекции текстов;
  • в проекте Корпус русских учебных текстов (CoRST) http://web-corpora.net/learner_corpus/ реорганизован алгоритм удаления из текстов цитат, таблиц, графиков, примеров, титульных страниц, библиографии, приложений и другой метаинформации;
  • в проекте  Корпус ошибок носителей русского языка, изучающих английский язык (REALEC) http://realec.org/ автоматизированы этапы аннотирования ошибок в экзаменационных англоязычных эссе студентов НИУ ВШЭ, изучающих английский язык как иностранный и владеющих русским как родным.

Результаты, полученные в области практики функционирования лингвистических корпусов

1. В проекте Русский учебный корпус (RLC) http://www.web-corpora.net/RLC/ продолжается пополнение коллекции, совершенствование разметки, расширение диапазона доминантных для пишущих языков.

  • Количество текстов 8002
  • Количество слов 1508277
  • Количество предложений 129342
  • Количество аннотаций 59898

2. В проекте Корпус русских учебных текстов (CoRST) http://web-corpora.net/learner_corpus/ расширяется база текстов, унифицируется представление метаданных:

  • Количество текстов 3677
  • Количество слов 3115212
  • Количество предложений 301079
  • Количество аннотаций 31472

3. В проекте  Корпус ошибок носителей русского языка, изучающих английский язык (REALEC) http://realec.org/ расширяется жанровый ассортимент элементов коллекции, алгоритмизируется представление текстов:

  • Количество текстов 11265
  • Количество слов 2833828
  • Количество аннотаций 10947

Осуществлена экспедиция "Фольклорная традиция Святого озера" (июль 2018) в Ивановскую область, Южский и Пестяковский районы, в рамках работы над ресурсом фольклорной речи (региолекта) с задачей описать бытовые и ритуальные речевые практики носителей региолекта, зафиксировать сюжеты о провалищах (ушедших под водах культурных объектах). Руководитель Ю. М. Кувшинская, организована группа из 9 студентов и 2 сотрудников.

В рамках ежегодной Апрельской международной научной конференции НИУ ВШЭ с 12 по 14 апреля работала организованная участниками рабочей группы проекта секция «Русский язык в многоязычном мире». Доклады были посвящены вопросам методики преподавания и техникам освоения русского языка как неродного и функционированию русского языка в условиях билингвизма, а также корпусным исследованиям и работе с RLC (https://www.hse.ru/ma/foreign/news/217989758.html).

В рамках региолектной составляющей проекта проверена гипотеза о влиянии социальных экстралингвистических факторов (пол, возраст, мобильность, образование) на узнавание регионализмов и их употребление в речи тверичей, преимущественно молодежи, определено актуальное состояние региональной городской лексики. Ранее региональная лексика Твери не обследовалась с точки зрения социолингвистики, хотя подобные попытки предпринимались лингвистами в других областях, часто с ориентацией на определенную социальную группу (описаны региолекты Новосибирска, Вятки, Пскова). Методом исследования был выбран социолингвистический опрос, состоявший из предложения информантам вопросов письменной анкеты и работы с регионализмами по check-листам. Опрос был проведен в два этапа с небольшим временным промежутком. Для каждого этапа были созданы собственные анкета и check-лист регионализмов, которые были предложены двум разным выборкам респондентов. Первую составляли исключительно жители Твери (разделенные на две группы по возрасту – младше 25 лет и старше 25 лет), а во вторую вошли три группы девушек, проживающих в Твери, Москве и Санкт-Петербурге. Данные опросов были проанализированы в статистической программе R (основной метод – регрессионный анализ) на предмет связи между социальными факторами и употреблением и узнаванием регионализмов. В результате анализа были получены следующие выводы: а) ни один из указанных экстралингвистических факторов не имеет значимого влияния на употребление регионализмов, старшее и младшее поколения жителей Твери употребляет и узнает “свои” регионализмы с одинаковой степенью успешности; б) лексика города Твери не находится на стадии разрушения, а является частью региональной нормы, узнаваемой носителями других норм (московской, петербургской) и интуитивно используемой самими тверичами в повседневной речи; в) модель эксперимента (социолингвистический двухуровневый опрос с предъявлением check-листа) может считаться удовлетворительной, хотя более целенаправленная постановка вопросов о некоторых других социальных факторах (составившие параметр “Социальные сети”) может дать в будущем статистически значимые результаты по новым параметрам.

В рамках диахронического анализа речевой нормы и сопоставительного изучения стандартизации родственных языков обследованы исторические чередования согласных в украинском языке: проведено корпусное и экспериментальное исследование. Проект продолжает серию исследований, проведенных в составе лингвистической лаборатории по корпусным технологиям на материале русского языка и посвященных расшатыванию системы исторических чередований согласных. В украинском языке, в отличие от русского, сохранились чередования в парадигмах существительных, связанные со второй палатализацией (например, рука - в руцi). Описано, насколько системно носители языка применяют эти чередования в словах-неологизмах и в квазисловах, проведено сравнение этих чередований с чередованиями, связанными с первой палатализацией (например, рука - ручка), которые есть и в украинском, и в русском языке.

Описаны лингвистические факторы, влияющие на выбор рода при образовании новых слов в русском языке: проведено экспериментальное и корпусное исследование. В описаниях литературного русского языка отмечается, что диминутивные и аугментативные суффиксы не меняют грамматический род слова, к которому присоединяются (например, маленький домишко, огромный домина). Тем не менее, можно заметить, что носители часто говорят и “огромная домина” и даже “убогое домишко”. Корпусное и экспериментальное исследование призвано показать, от каких факторов зависит распространенность этого явления.

В рамках изучения освоения неродного языка описаны лексические преференции носителей английского и изучающих английский язык. Цель работы - установить при помощи коллокаций (частотных элементов текста) близость между сегментами корпуса носителей английского языка и изучающих его как иностранный, проверить способность нескольких методов коллокационного анализа находить сходства и различия между учебными корпусами, а также попробовать найти словосочетания, наиболее характерные именно для исследуемых лектов. Способом достижения цели является корпусный анализ с применением статистических методов. По результатам иерархической кластеризации лексика в корпусе изучающих английский язык носителей русского языка оказывается более стандартизированной, а корпуса текстов эссе заданного формата оказываются ближе друг к другу. По результатам анализа, наиболее близким к текстам носителей языка сегментом корпуса REALEC являются аргументативные эссе студентов МПГУ. Это можно объяснить тем, что остальные составляющие элементы представляют собой тексты строгого формата, состоящие из единиц рекомендованного словаря, в то время как студенческие аргументативные эссе принадлежат к более свободному формату и включают отзывы на произведения художественной литературы. Наиболее близкими при всех вариантах кластеризации оказываются подкорпуса IELTS и MAGOLEGO корпуса REALEC, корпус же Академического письма оказывается наиболее удалённым от всех кластеров.

В рамках анализа экскламативов рассмотрены русские сложноподчиненные предложения с вопросительными местоимениями какой, сколько и кто в подчиненной клаузе, имеющей восклицательное прочтение. На основании анализа совместного частотного распределения матричных предикатов и подчиненных клауз в Национальном корпусе русского языка приводятся косвенные свидетельства в пользу гипотезы расподчинимости (insubordination hypothesis). Эта гипотеза применительно к восклицаниям заключается в том, что независимые восклицания возникли вследствие расподчинимости ряда подчиненных конструкций с вопросительными местоимениями. Таким образом, проведенный анализ является шагом на пути к подтверждению того, что о подчиненных восклицаниях, во всяком случае в русском языке, говорить не приходится.

По результатам проекта подготовлено учебное пособие по академическому письму для студентов нефилологических специальностей, упражнения для которого составлены с опорой на данные учебных корпусов и направлены на корректировку типичных ошибок чтения, анализа и создания текстов научной и деловой ориентации. Пособие принято к печати издательством "Юрайт" (получено письмо от 10.05.2018 от эксперта книгоиздания издательства "Юрайт" А. Д. Эзериной, заключен авторский договор, выход запланирован на декабрь 2018).

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

По мере формирования корпуса поступают в открытый доступ для нужд специалистов гуманитарного и педагогического профиля (историков, антропологов, этнографов, регионоведов, филологов, лингвистов, переводчиков и переводоведов, социологов, психологов, логопедов и логопатологов, школьных учителей, методистов и преподавателей дисциплин высшего и дополнительного образования) – как материал для исследования и основа для составления учебных заданий:

http://www.web-corpora.net/RLC/

http://web-corpora.net/learner_corpus/

http://realec.org/

Публикации по проекту:


Vinogradova O. I. Automated Vocabulary Evaluation in a Learner Corpus // ПОЛИЛИНГВИАЛЬНОСТЬ И ТРАНСКУЛЬТУРНЫЕ ПРАКТИКИ. 2018. Vol. 15. No. 2018/3. P. 372-380. doi
Olga Vinogradova. To automated generation of test questions on the basis of error annotations in EFL essays: a time-saving tool?, in: Learner Corpora and Language Teaching. John Benjamins Publishing Company, 2019. doi Ch. 1-2. P. 29-48. doi
Культепина О. А. Социолингвистическое исследование городской лексики Твери // Вестник Томского государственного университета. 2018. № 435. С. 29-39. doi
Зевахина Н. А. Конструкция "Нашел чем удивить!" // В кн.: ЕВРика! Сборник статей о поисках и находках к юбилею Е. В. Рахилиной / Под общ. ред.: Д. А. Рыжова, Б. В. Орехов, Н. Р. Добрушина, Т. И. Резникова, А. А. Бонч-Осмоловская, А. С. Выренкова, М. В. Кюсева. М. : Лабиринт, 2018. С. 290-301.
Rudnev P. Disjunct size, positive polarity, and the scope of disjunction in Russian // Semantics and Pragmatics. 2018
Polinsky M. Sign languages in the heritage language context: A new direction in language research // Sign Language Studies. 2018. Vol. 18. No. 3. P. 412-428. doi