• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Корпусные технологии в лингвистических и междисциплинарных исследованиях

2013

1. Объект исследования. В рамках проекта изучались нестандартные варианты русского языка: диапазон вариативности отклонений от рекомендательной нормы в области грамматики и лексики, демонстрируемый носителями регионального варианта идиома (русского языка, функционирующего на территории Дагестана), живущими за пределами Российской Федерации носителями унаследованного от родителей-эмигрантов русского языка (херитажниками, или эритажниками, от англ. «наследство»), первокурсниками, изучающими новый для них речевой регистр – академическое письмо на родном языке в рамках овладения специальностью, а также пользователями интернет-среды в особых условиях устно-письменного общения. Речевые сбои и системные нарушения канонических образцов изучались с точки зрения сопоставления ненормативного употребления с кодифицированной словарями и грамматиками нормой и материковым узусом – тенденцией к употреблению соответствующих слов и конструкций, формирующейся в современном русском языке.

2. Цель работы. Стратегической целью проекта является создание, постоянное пополнение и совершенствование лингвистических корпусов (корпуса академического письма (в том числе – в сопоставительных целях – корпуса наивных переводов с английского языка и корпуса академического письма по-английски), корпуса херитажа, корпуса блогов, корпуса региолекта, а также анализ и интерпретация данных, извлекаемых  из лежащих в основе каждого корпуса коллекций текстов. Принципиальная задача проекта состоит к разработке и корректировке многоступенчатой и многофакторной типологии ошибок и речевых сбоев, допускаемых носителями нестандартных вариантов русского языка. Лингвистические исследования, базирующиеся на материале корпусов и сопоставлении полученных данных с данными Национального корпуса русского языка проливают свет на природу ошибок и выявляют сферы формирования новых тенденций, связанных с развитием лексико-грамматической системы современного русского языка. Таким образом, целью проекта является теоретическая разработка принципов организации коллекций текстов и разметки этих коллекций для создания, пополнения и совершенствования лингвистических корпусов, ориентированных на социолингвистические исследования и исследования в смежных областях (политологии, психологии, социологии, антропологии): на изучение особенностей нестандартных регистров русского языка – осваиваемого неносителем-инофоном, функционирующего в регионах РФ, воплощающего новые для говорящего и пишущего жанры, унаследованного от родителей на территории иноговорящего государства.

3. Эмпирическая база исследования. В основе коллекций, послуживших исходной базой для создания корпусов, лежат полученные в ходе полевых исследований данные региолекта (записи, расшифровки, набор, первичные кодировки лексико-грамматических особенностей текста и пилотное маркирование тэгами несовпадений с кодифицированной нормой – корпусная разметка –  осуществлялись участниками проекта Н. Р. Добрушиной и М. А. Даниэлем и их учениками), учебные тексты студентов НИУ ВШЭ, открытые читателю интернет-блоги, учебные тексты студентов-инофонов и херитажников, предоставленные преподавателями русского языка как иностранного (с согласия студентов).

4. Результаты работы. В ходе исследования разработаны методические принципы организации коллекций текстов, положенных в основу корпусов речи русскоговорящих жителей региона РФ (Дагестана), говорящих на условно сохранном русском языке проживающих за пределами РФ потомков эмигрантов из России, осваивающих академическое письмо студентов-первокурсников, пользователей интернет-блогов; созданы модели метаразметки данных; сконструирован поисковый инструментарий, оптимизирующий нахождение языковой единицы в корпусе; описана классификация нарушений речевого стандарта (разноуровневых ошибок пишущего). В результате проекта внедрены корпусы нестандартных регистров русской речи (академический, херитажный) и интерпретированы тенденции, связанные с реструктуризацией лексико-грамматических норм современного русского языка.

5. Степень внедрения результатов

5.1. Созданы корпусы текстов «нестандартных говорящих» (частично владеющих русским языком в том или ином его варианте), а именно:

5.1.1. Корпус русского языка детей эмигрантов  ̶ «наследников» (или «херитажников»). Идиом отличается лексически и грамматически как от материкового русского языка, так и от русского, усваиваемого инофонами в качестве иностранного. Характер отступлений от нормы обусловлен не только и не столько интерференцией доминирующего языка и языка семьи, сколько специфическими внутриязыковыми закономерностями, заложенными в системе русского языка, но не реализованными или только частично реализуемыми языком метрополии. Корпус включает коллекцию эссе, ответов на вопросы с фиксированным и нефиксированным временем выполнения задания. Метаразметка позволяет определить жанр текста, идентифицировать автора нескольких текстов, соотнести языковые данные с заявленным уровнем владения языком. Последовательное расширение контекста позволяет учитывать модификации употребления языковой единицы в зависимости от характера текстового окружения.

5.1.2. Корпус региональных вариантов русского языка. Базируется на расшифрованных записях интервью с жителями сел Дагестана, осуществленных участниками проекта. Региолект отражает лексические и грамматические черты, типологически соотносимые с языками окружения (домашними языками говорящих), но не сводимые к калькированию. Сделаны дополнительные расшифровки 9 записей общим объемом звучания 310 минут. Из них 6 записей из селения Янгикент (родной язык информанта — кумыкский), 1 запись из селения Маллакент (родной язык — даргинский), 1 запись из селения Арчиб (родной язык — арчинский), 1 запись из селения Шалиб (родной язык — лакский). Принципом расшифровок является максимально точная передача сказанного, с сохранением всех особенностей речи: повторов, сбоев, оговорок, всевозможных отклонений от нормативной речи. В случае использования говорящим такого варианта слова, который не будет распознан автоматически, применяется двойная запись с расшифровкой варианта.

5.1.3. Корпус блогов. В ходе реализации проекта разработана методология сбора текстовой основы сбалансированного корпуса блогов русскоязычного сегмента интернета, учитывающая форматные свойства текстов (сообщение или комментарий), специфику функционирования текстов блогов в интернет-среде (которая основана на распространенной практике копирования и рассылки сообщений, опирается на обильно представленную визуальную составляющую поступающей информации, включает компонент координации данного сообщения с другими электронными ресурсами). Выделены основные платформы, собирающие различающиеся по социальным, возрастным и лингвистическим характеристикам группы пользователей. Выбрано 3422 блога и собран корпус объемом в общей сложности около 38,5 млн словоупотреблений.

5.1.4. Корпус ошибок носителей русского языка, обучающихся академическому письму. Корпус академического письма  представляет собой коллекцию текстов, написанных студентами и магистрантами НИУ ВШЭ. Поскольку проект фокусируется прежде всего на языковой специфике тех профессиональных сфер, которыми овладевают студенты НИУ ВШЭ, в Корпус АП были включены тексты студентов только тех специальностей, обучение по которым ведется в НИУ ВШЭ (экономистов, социологов, политологов, юристов, психологов, журналистов, лингвистов, историков, логистов). Основные типы текстов, представленные в Корпусе АП, – это курсовые, дипломные и выпускные квалификационные работы, эссе, аннотации, автобиографии, ответы на вопросы. Тексты собирались в течение учебного года, охватывающего проект (2012-1013). Объем корпуса академического письма составляет около1 300 000 словоупотреблений.

5.1.5. Корпус переводов. Собраны два корпуса текстов: ошибки в текстах, переведенных на английских язык носителями русского языка (500 текстов студенческих переводов, 400 тысяч словоупотреблений; тексты снабжены метаразметкой, описывающей ситуацию перевода) и ошибки в оригинальных письменных текстах на английском языке, написанных носителями русского языка (1346 ошибок). Материалы, которые размечены студентами, включают 100 аргументативных эссе на английском языке, написанных студентами 1 курса направления ФИПЛ факультета филологии НИУ ВШЭ, объемом 50000 слов, с исправлениями и комментариями преподавателей. Источники для корпуса переводов представлены вузами РФ. Переводы выполнены студентами, обучающимися на переводческих специальностях в период с 2007 по 2013 годы, известен пол переводчика, жанр текста, оценка за перевод, год обучения, ситуация перевода (дома/в классе, экзамен/повседневная работа). Метаразметка включает следующие элементы: 2011-2012, 2012-2013 академический год, жанр, оценка, уровень знания языка. Для корпуса ошибок собирались все переводы, выполненные непрофессиональными переводчиками. Кафедры предоставляют оригиналы текстов и переводы в электронном виде, по возможности метаданные. Аргументативные эссе в рамках курса по английскому языку для студентов уровня Upper Intermediate, рецензии и абстракты в рамках курса по английскому академическому письму для студентов уровня Upper Intermediate собраны преподавателями. Оригиналы и переводы переводились в текстовый формат и подвергались процедуре автоматического выравнивания (alignment). Результат корректировался вручную, в полученный параллельный корпус добавлялись метаданные. Осуществлялась морфологическая и синтаксическая разметка, разметка по типам ошибок (переводческая или языковая, класс ошибки); грамматическая, лексическая и стилистическая разметка, включающая указание на вид ошибки и правильный вариант. Исследователи-переводоведы получают ресурс для изучения переводческих ошибок и вариативности перевода. Преподаватели перевода получают источник примеров ошибок и информации об их частотности и обусловленности ситуациями перевода. Исследователи в области foreign language acquisition получают базу разных типов ошибок, а также сведения об их частотности, позволяющие прослеживать влияние родного (русского) языка на освоение иностранного (английского) и моделировать когнитивные процессы, связанные с освоением иностранного языка. Преподаватели английского языка как иностранного, а также их студенты получают информацию о типичных ошибках у носителей русского языка и интерактивные тренажеры. Студенты-лингвисты, осваивающие академическое письмо на английском языке, получают ценный ресурс, позволяющий выявить структурные различия между русским и английским академическим письмом путем изучения ошибочных и удачных образцов академического письма; получают информацию о типичных языковых и стилистических ошибках русскоязычных авторов, пишущих на английском, о рекомендуемых синтаксических и лексических оборотах, а также о том, каких конструкций нужно избегать.

5.2. Созданы исследовательские базы данных, позволяющие аналитически рассматривать материалы корпусов:

5.2.1. Частотный портал НКРЯ – средство обеспечения аналитики частотных слов и словосочетаний, значимой лексики по корпусам и коллекциям документов (во взаимодействии с Университетом Хельсинки). Собраны биграммы и триграммы (двухсловные и трехсловные сочетания, отвечающие заданным вероятностным условиям) по Национальному корпусу русского языка. Проводится оценка максимальной длины N-граммов с точки зрения интересов пользователей и производительности поисковой системы. Метаразметка включает жанровые регистры и время создания текста. Данные подверглись технической обработке и фильтрации списка, последующей статистической обработке. Выделены частотные N-граммы. Просчитываются меры устойчивости коллокаций, абсолютная частота вхождений, количество документов, в которых встретилась единица. Типология предлагаемой разметки включает лемматизацию, части речи, грамматическую разметку, разметку дополнительных параметров (наличие пунктуации, капитализацию). Адресат ресурса — пользователи НКРЯ: русисты, специалисты по типологической лингвистике, лексикологи и лексикографы, переводчики, методисты-преподаватели русского языка. Пользователь получает предварительный анализ выдачи по корпусу (кластеризацию контекстов), оценки устойчивости коллокаций, оценки вероятности появления языковых единиц (леммы, части речи, формы определенного падежа) в ближайшем контексте. Функционал включает сортировки по статистическим мерам, выгрузку данных оффлайн и переход в НКРЯ (выдачу примеров, удовлетворяющих выбранным критериям). Ресурс обеспечивает развитие квантитативных корпусных исследований и становится базой для фундаментальных исследований в области русской грамматики.

6. Область применения результатов. Лингвистический корпус (коллекция текстов, подобранных в соответствии с конкретным критерием, в нашем случае – с ориентацией на особые регистры функционирования "нестандартного" русского языка – и оформленных специальными метками для реализации поиска заданного лингвистического объекта) позволяет исследователю-гуманитарию наблюдать за поведением языковой единицы в естественном контексте. Лингвист, социолог, историк, политолог, психолог, юрист при обращении к корпусу, основанному на записях речи современных говорящих и на письменных текстах, порожденных современниками, нуждается в сервисе, обеспечивающем быстрый поиск нужной языковой единицы (словоформы, конструкции), включая оптимальное с точки зрения скорости и простоты запроса обнаружение классифицированных отклонений от речевого стандарта. Предлагаемый продукт предоставляет возможность такого поиска. Интерпретация актуальных языковых изменений, основанная на достоверных данных, позволит усовершенствовать представление о развитии языка как системы и корректировать методики обучения родному и неродному языку.

Публикации по проекту:


Кувшинская Ю. М. Тенденции развития вариативности в согласовании сказуемого с подлежащим, включающим числительное "несколько" // В кн.: Вопросы русской исторической грамматики и славяноведения: К 175-летию со дня рождения Ватрослава Ягича. Петрозаводск : Издательство ПетрГУ, 2013. С. 99-103.
Daniel M. The Second Genitive in Russian, in: Partitive cases and related categories. Berlin, NY : De Gruyter Mouton, 2014. Ch. 9. P. 347-377.
Летучий А. Б. Свойства нулевой связки в русском языке в сопоставлении со свойствами выраженного глагола // Компьютерная лингвистика и интеллектуальные технологии. 2013. № 12 (19). С. 420-434.
Виноградова О. И. К лексической типологии признаковых слов, описывающих фактуру поверхностей: данные английского языка // В кн.: Проблемы лексико-семантической типологии Вып. 2. Воронеж : Воронежский государственный университет, 2013. С. 39-72.
Ахапкина Я. Э. Отступления от речевого стандарта на письме у американских студентов из семей, говорящих по-русски // В кн.: Проблемы онтолингвистики - 2013 / Рук.: Т. Круглякова; сост.: Т. Круглякова; отв. ред.: Т. Круглякова; под общ. ред.: Т. Круглякова; науч. ред.: Т. Круглякова. СПб. : Российский государственный педагогический университет им. А.И. Герцена, 2013. С. 401-406.
Zevakhina N. Standard-shifting in the adjectival domain: Corpus evidence and discussion, in: http://spe6conference.wordpress.com/materials/. , 2013.
Plisetskaya A. D. American and Russian 'Victory' Discourse: A Conflict of Cultures / NRU HSE. Series WP BRP "Linguistics". 2013. No. WP BRP 03/LNG/2013.
Плисецкая А. Д. О языковых и риторических стратегиях выражения оценки у пользователей социальной сети Фейсбук. // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 83-93.
Кувшинская Ю. М. Аббревиация в речи интернет-форумов // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 23-39.
Летучий А. Б., Рахилина Е. В. Начальная стадия грамматикализации значений глагольной множественности в квазиграмматических конструкциях // В кн.: Славянское языкознание. XV Международный съезд славистов. Минск, 21-27 августа 2013 г. Доклады российской делегации. М. : Индрик, 2013. С. 432-451.
Плисецкая А. Д. Архетипичные метафоры в предвыборном дискурсе 2012 года (на материале победных речей президентов России и США) // В кн.: Актуальные вопросы филологии и методики преподавания иностранных языков: Статьи и материалы пятой международной научной конференции 20–21 февраля 2013 г. В 2-х т. Санкт-Петербург 2013 Т. 1. СПб. : Государственная полярная академия, 2013. С. 208-217.
Летучий А. Б. Особенности аргументной структуры русских глаголов в "компьютерных" контекстах // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014.
Плисецкая А. Д. Национальный корпус русского языка как один из инструментов анализа фразеологических сочетаний // В кн.: Корпусная лингвистика - 2013: Труды международной научной конференции. СПб. : Санкт-Петербургский государственный университет, 2013. С. 387-396.
Рахилина Е. В. Корпусные исследования особенностей речи нестандартных говорящих («херитажный» русский) // Acta Linguistica Petropolitana. Труды института лингвистических исследований. 2014
Meaning Text Theory: Current Developments / Ed. by V. Apresyan, B. Iomdin. Vol. . Issue 85. Muenchen : Wiener Slawistischer Almanach, 2013.
Apresyan V. Pri vsjom X-e: a Corpus Study of a Russian Syntactic Phraseme, in: Meaning Text Theory: Current Developments / Ed. by V. Apresyan, B. Iomdin. Vol. . Issue 85. Muenchen : Wiener Slawistischer Almanach, 2013. Ch. 2.1. P. 132-141.
Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014.
Kutuzov A. B. Improving English-Russian sentence alignment through POS tagging and Damerau-Levenshtein distance, in: Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing / Ed. by Pivovarova Lidia, J. Piskorski, H. Tanev, R. Yangarber. Association for Computational Linguistics, 2013. P. 63-68.
Зевахина Н. А., Оскольская С. А. Какая-никакая, а Всемирная паутина: конструкции с «редуплицированными» уступительными местоимениями в русском языке // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 202-221.
Даниэль М. А., Добрушина Н. Р. Русский язык в Дагестане: проблемы языковой интерференции // В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т. Т. 1: Основная программа конференции. Вып. 12 (19). М. : РГГУ, 2013. С. 186-211.
Рахилина Е. В., Выренкова А. С. Ошибки в речи херитажных говорящих (на материале текстов русских эмигрантов в США) // В кн.: Проблемы онтолингвистики - 2013 / Рук.: Т. Круглякова; сост.: Т. Круглякова; отв. ред.: Т. Круглякова; под общ. ред.: Т. Круглякова; науч. ред.: Т. Круглякова. СПб. : Российский государственный педагогический университет им. А.И. Герцена, 2013. С. 435-439.
Рахилина Е. В., Плунгян В. А. Временные значения русских предлогов: границы метафоризации // Русский язык в научном освещении. 2013. № 1 (25). С. 5-20.
Плисецкая А. Д. Опыт риторической интерпретации англоязычных политических текстов (на примере одной речи Барака Обамы) // В кн.: Homo Loquens: Актуальные вопросы лингвистики и методики преподавания иностранных языков (2013) / Под общ. ред.: И. Ю. Щемелева. Вып. 5. СПб. : Астерион, 2013. С. 207-218.
Ахапкина Я. Э. О грамматике устно-письменного высказывания // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 181-194.
Буйлова Н. Н., Ляшевская О. Н. Так говорят анимешники // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 239-249.
Рахилина Е. В., Марушкина А. С. Корпусные исследования особенностей речи нестандартных говорящих ("херитажный русский") // Acta Linguistica Petropolitana. Труды института лингвистических исследований. 2015. Т. XI. № 1. С. 621-639.