• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Corpus technologies in linguistic and interdisciplinary studies

2013
Department: Linguistic Laboratory of Corpus Technologies
The project has been carried out as part of the HSE Program of Fundamental Studies.

1. Subject of research. The following non-standard variations in Russian language were subject to research within this project: deviation variety range in grammar and vocabulary of speakers of the regional variety of Russian (namely, Russian speakers in Dagestan), of Russian speakers living outside of the Russian Federation, who have inherited Russian from their emigrant parents (so called heritage speakers), and of university freshmen studying an academic writing Russian register new for them. Besides, the research covered the specific features of the spoken and written language used in the Internet media under some special circumstances.

2. Research objectives. The strategic goal is to set up and develop linguistic corpora, namely, the set of corpora of academic writing (Russian Academic Writing Corpus, English Academic Writing Corpus and Corpus of Translations from English), as well as Russian Heritage Corpus, Blog Writing Corpus and Regional Russian Corpus. These corpora provide data for carrying out multiple-stage and multiple-factor typological research into tendencies in speech errors and systemic deviations form the standards as these tendencies are being formed in non-standard contemporary Russian. The results of the research are then compared with the data from Russian National Corpus, which in turn sheds light on Russian language lexical and grammar development.

3. Research Empirical Basis. Corpora mentioned above are based, correspondingly, on written assignments submitted by students of the Higher School of Economics in their academic courses, on oral and written speech samples of student learners of Russian in their course of Russian as a foreign language (submitted with students’ consent), on Internet blogs, and, finally, on field trip recordings to the area of a certain regional variation of Russian.

4. Research Results. Strategies and ways of collecting materials in each of the corpora have been worked out; models of data metatagging have been designed; search tools for finding the necessary articles in the corpora have been constructed; categorization of errors have been introduced. New registers in Russian speech have been proposed, and it may pave the way to restructuring lexical and grammar standards of modern Russian.

5. Stages in results application

5.1. The following corpora of “non-standard speech” have been set up:

5.1.1. Russian Heritage Corpus is the collection of texts in Russian produced by the children of emigrants from Russia (speakers of “heritage” Russian). This variety of Russian is different in its lexicon and grammar from both the mainland Russian and Russian acquired by speakers of other language when they study Russian as a foreign language. The character of deviations can be accounted for not only and not largely by the interference of the dominant language and heritage language, but rather by applying specific regulations inherent in the system of Russian language but not developed – or only partially developed – in the mainland language. There are essays, fixed-time replies and free replies to questions in the tasks in this corpus. Tagging includes identification of the genre and the author and allows carrying out the correspondence between language evidence and the level of mastering the language stated.

5.1.2. Regional Russian Corpus (Dagestan) is based on deciphered recordings of interviews given by the inhabitants of a few villages in Dagestan (9 recordings of speakers of different languages as L1 from 4 different villages). The regional variety reflects lexical and grammatical features typologically related to other languages in the environment but not restricted to calques.

5.1.3. In Blog Writing Corpus, methods of data collection from the Russian area of the Internet have been developed for different formats (message or comment) in their coexistence with other electronic means and with strong emphasis on information visual components. The main blogs (3422 total) with users from different social, age and linguistic potential groups have been outlined, and the total of 38.5 million words have been collected.

5.1.4. Russian Academic Writing Corpus is a collection of texts produced by Russian students of the Higher School of Economics (Bachelor’s and Master’s programmes in different departments) in their course of Academic Writing in Russian. The main types of texts are theses, essays, annotations, autobiographies and replies to questions within the course. The texts were collected in 2012-2013 academic year and total about 1.3 million words.

5.1.5. English Academic Writing Corpus (100 essays of about 50,000 total, 1,346 mistakes) and Corpus of Translations from English (500 texts of about 400,000 words) both include Russian students’ texts in English (essays, reviews and abstracts, on the one hand, and translations, on the other, correspondingly) with mistakes tagged, corrected and provided with comments. Argumentative and descriptive essays in English were written assignments administered to students at Upper Intermediate level in General English course, while reviews and abstracts were assignments given in the course of Academic Writing in English. 

Publications:


Кувшинская Ю. М. Тенденции развития вариативности в согласовании сказуемого с подлежащим, включающим числительное "несколько" // В кн.: Вопросы русской исторической грамматики и славяноведения: К 175-летию со дня рождения Ватрослава Ягича. Петрозаводск : Издательство ПетрГУ, 2013. С. 99-103.
Daniel M. The Second Genitive in Russian, in: Partitive cases and related categories. Berlin, NY : De Gruyter Mouton, 2014. Ch. 9. P. 347-377.
Летучий А. Б. Свойства нулевой связки в русском языке в сопоставлении со свойствами выраженного глагола // Компьютерная лингвистика и интеллектуальные технологии. 2013. № 12 (19). С. 420-434.
Виноградова О. И. К лексической типологии признаковых слов, описывающих фактуру поверхностей: данные английского языка // В кн.: Проблемы лексико-семантической типологии Вып. 2. Воронеж : Воронежский государственный университет, 2013. С. 39-72.
Ахапкина Я. Э. Отступления от речевого стандарта на письме у американских студентов из семей, говорящих по-русски // В кн.: Проблемы онтолингвистики - 2013 / Рук.: Т. Круглякова; сост.: Т. Круглякова; отв. ред.: Т. Круглякова; под общ. ред.: Т. Круглякова; науч. ред.: Т. Круглякова. СПб. : Российский государственный педагогический университет им. А.И. Герцена, 2013. С. 401-406.
Zevakhina N. Standard-shifting in the adjectival domain: Corpus evidence and discussion, in: http://spe6conference.wordpress.com/materials/. , 2013.
Plisetskaya A. D. American and Russian 'Victory' Discourse: A Conflict of Cultures / NRU HSE. Series WP BRP "Linguistics". 2013. No. WP BRP 03/LNG/2013.
Плисецкая А. Д. О языковых и риторических стратегиях выражения оценки у пользователей социальной сети Фейсбук. // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 83-93.
Кувшинская Ю. М. Аббревиация в речи интернет-форумов // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 23-39.
Летучий А. Б., Рахилина Е. В. Начальная стадия грамматикализации значений глагольной множественности в квазиграмматических конструкциях // В кн.: Славянское языкознание. XV Международный съезд славистов. Минск, 21-27 августа 2013 г. Доклады российской делегации. М. : Индрик, 2013. С. 432-451.
Плисецкая А. Д. Архетипичные метафоры в предвыборном дискурсе 2012 года (на материале победных речей президентов России и США) // В кн.: Актуальные вопросы филологии и методики преподавания иностранных языков: Статьи и материалы пятой международной научной конференции 20–21 февраля 2013 г. В 2-х т. Санкт-Петербург 2013 Т. 1. СПб. : Государственная полярная академия, 2013. С. 208-217.
Летучий А. Б. Особенности аргументной структуры русских глаголов в "компьютерных" контекстах // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014.
Плисецкая А. Д. Национальный корпус русского языка как один из инструментов анализа фразеологических сочетаний // В кн.: Корпусная лингвистика - 2013: Труды международной научной конференции. СПб. : Санкт-Петербургский государственный университет, 2013. С. 387-396.
Рахилина Е. В. Корпусные исследования особенностей речи нестандартных говорящих («херитажный» русский) // Acta Linguistica Petropolitana. Труды института лингвистических исследований. 2014
Meaning Text Theory: Current Developments / Ed. by V. Apresyan, B. Iomdin. Vol. . Issue 85. Muenchen : Wiener Slawistischer Almanach, 2013.
Apresyan V. Pri vsjom X-e: a Corpus Study of a Russian Syntactic Phraseme, in: Meaning Text Theory: Current Developments / Ed. by V. Apresyan, B. Iomdin. Vol. . Issue 85. Muenchen : Wiener Slawistischer Almanach, 2013. Ch. 2.1. P. 132-141.
Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014.
Kutuzov A. B. Improving English-Russian sentence alignment through POS tagging and Damerau-Levenshtein distance, in: Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing / Ed. by Pivovarova Lidia, J. Piskorski, H. Tanev, R. Yangarber. Association for Computational Linguistics, 2013. P. 63-68.
Зевахина Н. А., Оскольская С. А. Какая-никакая, а Всемирная паутина: конструкции с «редуплицированными» уступительными местоимениями в русском языке // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 202-221.
Даниэль М. А., Добрушина Н. Р. Русский язык в Дагестане: проблемы языковой интерференции // В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т. Т. 1: Основная программа конференции. Вып. 12 (19). М. : РГГУ, 2013. С. 186-211.
Рахилина Е. В., Выренкова А. С. Ошибки в речи херитажных говорящих (на материале текстов русских эмигрантов в США) // В кн.: Проблемы онтолингвистики - 2013 / Рук.: Т. Круглякова; сост.: Т. Круглякова; отв. ред.: Т. Круглякова; под общ. ред.: Т. Круглякова; науч. ред.: Т. Круглякова. СПб. : Российский государственный педагогический университет им. А.И. Герцена, 2013. С. 435-439.
Рахилина Е. В., Плунгян В. А. Временные значения русских предлогов: границы метафоризации // Русский язык в научном освещении. 2013. № 1 (25). С. 5-20.
Плисецкая А. Д. Опыт риторической интерпретации англоязычных политических текстов (на примере одной речи Барака Обамы) // В кн.: Homo Loquens: Актуальные вопросы лингвистики и методики преподавания иностранных языков (2013) / Под общ. ред.: И. Ю. Щемелева. Вып. 5. СПб. : Астерион, 2013. С. 207-218.
Ахапкина Я. Э. О грамматике устно-письменного высказывания // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 181-194.
Буйлова Н. Н., Ляшевская О. Н. Так говорят анимешники // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. С. 239-249.
Рахилина Е. В., Марушкина А. С. Корпусные исследования особенностей речи нестандартных говорящих ("херитажный русский") // Acta Linguistica Petropolitana. Труды института лингвистических исследований. 2015. Т. XI. № 1. С. 621-639.