• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Корпусные технологии в лингвистических и междисциплинарных исследованиях

Приоритетные направления развития: гуманитарные науки
2014

Объектом корпусного исследования являются варианты стратегий выражения замысла говорящего и пишущего.

Эти варианты порождают отступления от рекомендательной нормы в речи носителей русского языка, включая носителей нестандартных регистров. К таким регистрам относится речь инофонов, изучающих русский язык; речь жителей регионов РФ; речь студентов, начинающих использовать академическую манеру письма; речь эмигрантов, утрачивающих домашний язык; речь носителей языка, пишущих в интернет-пространстве.

Корпус как снабженная поисковым аппаратом коллекция текстов  позволяет быстро находить необходимые исследователю и преподавателю речевые факты. Ненормативные высказывания изучаются в сопоставлении с образцовой речью, с диктатом системы и среды. Исследуются актуальные тенденции в формировании узуальных лексических и грамматических норм современной русской речи: в области орфоэпических сдвигов, продуктивных моделей словообразования, вариативности словоизменения и построения высказывания.

Междисциплинарный характер проекта обусловлен спецификой приложения разрабатываемых ресурсов: в политологии и регионоведении – для учета особенностей речи носителей русского языка в регионах с доминирующим иноязычием, в психологии и психопатологии, неврологии – для учета характерных речевых нарушений как симптомов расстройств общей этиологии, в социальных науках – для учета различий в идиолектах разных общественных страт, в антропологии – для учета этнической специфики речевой продукции, обусловленной ситуацией языкового взаимодействия и длительного контакта.

Проект направлен на изучение особенностей нестандартных регистров русского языка :

  • осваиваемого неносителем-инофоном,
  • функционирующего в регионах РФ,
  • воплощающего новые для говорящего и пишущего жанры,
  • унаследованного от родителей на территории иноговорящего государства.

Цель долгосрочного исследования — разработка, внедрение и последующее пополнение / совершенствование лингвистических корпусов нестандартных регистров русской речи, а также ориентированный на поиск становления актуальных норм корпусный анализ речевых данных, включающий исследования, направленные на выявление речевых аномалий, аграмматизмов и системных речевых сбоев в сопоставлении с нормой.

В фокусе внимания проекта 2014 года находились разработка и внедрение стилистического тренажера, позволяющего анализировать системные сбои в устной и письменной речи и предотвращать неосознанное нарушение нормативных предписаний в речи обучающихся нормированным стандартизованным языковым регистрам.

В ходе исследования усовершенствованы методические принципы организации коллекций текстов, положенных в основу корпусов речи русскоговорящих жителей регионов РФ, использующих условно сохранный русский язык и проживающих за пределами РФ потомков эмигрантов из России, осваивающих академическое письмо студентов-первокурсников, пользователей интернет-блогов; скорректированы модели метаразметки данных; оптимизирован поисковый инструментарий, облегчающий нахождение языковой единицы  и сочетания единиц в корпусе; детально описана классификация системных нарушений речевого стандарта (разноуровневых ошибок и сбоев пишущего, диффузной границы нормы и узуальной речевой тенденции).

В результате проекта дополнены и усовершенствованы корпусы нестандартных регистров русской речи (академический, эритажный) и интерпретированы тенденции, связанные с реструктуризацией лексико-грамматических норм современного русского языка.

В 2014 году работа над проектом привела к следующим результатам.

В области теории:

  • зафиксированы магистральные закономерности контекстуальной, прагматической и собственно грамматической природы, регулирующие частотные системные сбои в области грамматической стилистики на письме в текстах инофонов, эритажных говорящих и носителей русского языка, связанные с разрушением компаративной конструкции, падежным варьированием при глагольном и именном управлении, выбором формы числа предиката при множественном субъекте;
  • предложена концепция лингвистического анализа речевых данных, восходящая к идеям "грамматики ошибок" (А. Фрей, Л. В. Щерба): к рассмотрению отрицательного языкового материала как отражения развития языковой системы, позволяющего выявлять в многообразии речевого варьирования тенденции слома жестких запретов и ограничений, наложенных речевой традицией и консервативной рекомендательной нормой (концепция позволяет анализировать лексическое и грамматическое варьирование в сопоставлении с функционированием лексикона и грамматикона неродственных языков и описывать речевые аномалии  и колебания в пределах нормы в типологическом аспекте);
  • разработана и внедрена модель стилистического тренажера, призванного способствовать профилактике провоцируемых узусом типичных речевых нарушений, концентрации внимания пишущего на зонах грамматического риска, рефлексии над лексической и грамматической вариативностью средств выражения замысла в ходе редактирования русскоязычного текста;
  • описаны тенденции речевого варьирования на материале корпусных и интернет-данных, а также на материале полевых данных с применением корпусных технологий анализа материала (в области смягчения переднеязычных взрывных согласных, синтаксических аномалий поискового запроса, особенностей построения вокабуляра наивной поэзии, стратегий переосмысления ключевых понятий  в политическом и медийном дискурсах);
  • созданы и первично описаны коллекции данных, позволяющих проводить аналитику корпусного материала: исследования по лексической типологии – для описания семантических групп лексики (с точки зрения появления многозначности единиц и грамматикализации конструкций) в русском языке в сопоставлении с представительной выборкой больших и малых языков мира;
  • сформулированы теоретические предпосылки создания классификационных сетей для выявления речевых аномалий в корпусах речи "нестандартных говорящих" и предложены образцы рабочих сетей.

В развитии методологии:

 

  • сформированы уточненные классификации речевых сбоев грамматической и семантической природы для всех видов разрабатывемых ресурсов, предложены иснструкции для разметчиков коллекций;
  • усовершенствованы методические принципы организации коллекций текстов, положенных в основу корпусов речи русскоговорящих жителей регионов РФ, использующих условно сохранный русский язык и проживающих за пределами РФ потомков эмигрантов из России, осваивающих академическое письмо студентов-первокурсников, пользователей интернет-блогов;
  • скорректированы модели метаразметки данных;
  • оптимизирован поисковый инструментарий, облегчающий нахождение языковой единицы  и сочетания единиц в корпусе;
  • детально описана классификация системных нарушений речевого стандарта (разноуровневых ошибок и сбоев пишущего, диффузной границы нормы и узуальной речевой тенденции);

 

В получении новых эмпирических данных:

  • в 2014 году пополнялись и совершенствовались созданные на первых этапах работы проекта в 2012-2013 годах корпусы речевой продукции «нестандартных говорящих» (частично владеющих русским языком в том или ином его варианте), а именно Корпус русского языка детей эмигрантов и «наследников» (или «херитажников», эритажников) – во взаимодействии с университетом Хельсинки, Гарвардским университетом, учительским сообществом Берлина; Корпус региональных вариантов русского языка (Кавказ) – с возможностью его дальнейшего расширения (русский язык на постсоветском пространстве); Корпус ошибок носителей русского языка (Корпус русских учебных текстов), обучающихся академическому письму, и неносителей (инофонов), обучающихся русскому языку (для последующей оценки частотности типов ошибок и настройки методик преподавания); Корпус наивных переводов; Корпус академического письма в рамках освоения английского языка русскоговорящими; Корпус речи интернет-коммуникантов (блогеров);
  • по Корпусу русских учебных текстов

http://web-corpora.net/RussianAcademCorpus/search/?interface_language=ru

Объем корпуса превышает 2 280 000 словоупотреблений.

Осуществлена и скорректирована метаразметка (лингвистические и социолингвистические сведения о пишущем, о жанре и типе текста, дополнительные сведения, облегчающие создание подкорпуса и организацию поискового запроса, добавлена помета, указывающая на цитирование – ввод чужой речи). Корпус снабжен морфологической (частеречной, категориальной) разметкой. 300 000 словоупотреблений размечены с учетом типа ошибки (речевого сбоя, нарушения рекомендательн6ой нормы);

  • по Корпусу академического письма: английский язык

http://rus-ltc.org

http://dev.rus-ltc.org/brat/#/esl/

225 000 словоупотреблений в корпусе.

794 текста студенческих учебных работ.

10 364 ошибки относительно прескриптивной нормы.

151 тип ошибки в развернутой классификации; за 2014 год было сделано 7800 изменений в аннотациях (включая создание новых элементов и изменение существующей разметки); добавлено 357 текстов, что составляет 93 234 слов.

Разработана классификации ошибок в области глагольных моделей управления и дискурса, а также проведен анализ ошибок, вызванных влиянием русского языка (интерференцией, приводящей к калькированию). Разработаны инструкции для разметчиков;

  • по Корпусу эритажа

http://web-corpora.net/RussianLearnerCorpus/search/

Объем корпуса после снятия омонимии (январь-май 2014 года) составил 400 000 словоупотреблений (актуальные «чистые» данные);

  • по Корпусу наивных переводов

в 2014 году добавлены тексты, общий объем которых в ресурсе Russian Learner Translator Corpus (RLTC) составляет 1 305 515 слов. Проведена профилактическая чистка коллекции для устранения системных ошибок разметки.

  • по Корпусу дагестанского варианта русского языка (2014 год)

записано новых текстов: около 10 часов аудиозаписи, расшифровано новых текстов: 60 000 слов; размечено ошибок: около 1000, выровнено со звуком в программе praat: 60 000 слов.

Разработаны шаблоны вариантов стилистического тренажера на основе Корпуса русских учебных текстов (12 упражнений по 15 предложений, 18 вариантов прошли двойную редакторскую правку и 10 вариантов находятся в стадии дополнительного редактирования).

Шаблон наполнен тематически и стилистически адекватными высказываниями (социологического, юридического, экономического, психологического, философского дискурсов).

Тренажер позволяет корректировать навыки студентов в редактировании профессионального текста, формировать языковую интуицию, проводить диагностику уровня владения профессиональным регистром родного языка (индивидуальную, групповую, срезовую). Новаторство тренажера заключается в возможности автоматической проверки заданий с кратким регламентированным и свободно конструируемым ответом. Разработка тренажера связана с фундаментальными проблемами теоретической стилистики, лингвистики текста, позволяет внести вклад в развитие теории эрратологии (науки о речевых сбоях и ошибках) на материале русского языка и его вариантов, связана с прикладными аспектами проектирования контрольно-измерительных материалов, тестологии и теории теста. Разработка тренажера, ориентированного на компетентностный подход к обучению и контролю лингвистических представлений и навыков, обеспечивает возможность перейти к построению комплекса контрольно-измерительных материалов нового поколения. Тренажер создан на безе анализа корпусных данных и на основе классификаций речевых сбоев, разработанной в ходе создания коллекции учебных текстов.

Совершенствовалась система корпусной разметки. В задачи исследования входило составление двух систем тегов (различительных маркеров для фрагмента речевой цепи), позволяющих оптимизировать поиск  отклонений от нормы в корпусах речи нестандартных регистров. Тэги отражают 1) типичные ошибки носителей русского языка как второго родного; 2) ошибки, характерные для авторов академических текстов. Проведена разработка принципов выстраивания единой системы тегов для двух типов текстов на основе а) полученных при анализе коллекций моделей; б) моделей, принятых в посвященных проблематике эрратологии исследованиях европейских коллег.

5-6. Проведенные на базе созданных корпусов и при сопоставительном анализе данных академического корпуса, Национального корпуса русского языка и интернет-дискурса исследования вносят вклад в социолингвистическую теорию изменений в языке, связанных с языковыми контактами и региональной вариативностью. Реализовано совершенствование usage-based model подхода к исследованию нестандартных вариантов языка с опорой на корпусные данные. Проведено уточнение модели дефицита компетенций и «точек роста» (тенденций к изменениям языка, зон вариативности и системно допустимого выбора); организовано включение региональных и социальных факторов в модель. Описаны универсальные и специфические параметры лексических систем языка с опорой на данные нестандартных регистров (региолекта, херитажа (эритажа), речи инофонов, эрратологического пласта в речи носителей языка).

На основе проводимых исследований реализуется конвергенция полевых и корпусных методов, корректировка принципов сбора, балансировки и специальной аннотации корпусов; продолжается разработка принципов представления грамматических и лексических особенностей нестандартных вариантов русского языка в корпусе; совершенствуются настройки образовательной модели обучения русскому языку для неканонических говорящих (imperfect learners): разрабатываются коррекционные программы для носителей региональных вариантов русского языка, программы академического письма.

Уточнена типология ошибок: выделены системные ошибки как маркеры «точек роста» — высокорелевантных языковых изменений; выявлены характерные (для региональных вариантов русского как родного и неродного) особенности, распределенные по языковым уровням: фонетические, лексические, грамматические; выделены нестандартные особенности письма для вариантов русского языка в категориях «электронная коммуникация» и «академическое письмо».

Публикации по проекту:


Кувшинская Ю. М. Согласование сказуемого с именной группой, включающей слова "сколько", "столько", "много", "немало", "несколько" // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2014. № 9. С. 24-32.
Ахапкина Я. Э. Грамматика письменной речи: конфликт предписания и узуса // В кн.: Русский язык: исторические судьбы и современность: V Международный конгресс исследователей русского языка (Москва, МГУ имени М. В. Ломоносова, филологический факультет, 18–21 марта 2014 г.): Труды и материалы. М. : Издательство Московского университета, 2014. С. 584-585.
Kutuzov A. B., Kunilovskaya M. Russian Learner Translator Corpus, in: Text, Speech and Dialogue 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. Springer, 2014. P. 315-323.
Файер В. В. Греческий гекзаметр: метрика и фонетика . М. : Издательский дом НИУ ВШЭ, 2015.
Letuchiy A. Historical development of labile verbs in modern Russian // Linguistics. 2015. Vol. 53. No. 3. P. 611-647. doi
Kutuzov A. B., Kuzmenko E. Russian Error-Annotated Learner English Corpus: a Tool for Computer-Assisted Language Learning, in: Proceedings of the third workshop on NLP for computer-assisted language learning at SLTC 2014, Uppsala University. Linköping : Linköping University Electronic Press, 2014. P. 87-97.
Джакупова С. С., Зевахина Н. А. (Не)совпадение падежа при эллипсисе в сочинительных конструкциях на материале учебных текстов носителей русского языка // В кн.: Slavica Helsingiensia 45. Инструментарий русистики: Ошибки и многоязычие. Хельсинки : Университет Хельсинки, 2014. С. 35-49.
Kutuzov A. B., Ionov M. The impact of morphology processing quality on automated anaphora resolution for Russian, in: Computational Linguistics and Intellectual Technologies: papers from the Annual conference “Dialogue 2014” Issue 13 (20). M. : ., 2014. P. 232-241.
Рахилина Е. В. Грамматика ошибок: в поисках констант // В кн.: Язык. Константы. Переменные: Памяти Александра Евгеньевича Кибрика / Науч. ред.: М. А. Даниэль, Е. А. Лютикова, В. А. Плунгян, С. Г. Татевосов, О. Федорова. СПб. : Алетейя, 2014. С. 87-95.
Plisetskaya A. D. Representation of Domination in the Latest Moscow Mayoral Election Campaign (Anti-immigrant Discourse), in: Дискурс как социальная деятельность: приоритеты и перспективы. Материалы второй международной научной конференции Ч. II. Московский государственный лингвистический университет, 2014. P. 67-69.
Arkhangelskiy T. Clitics In The Beserman Dialect Of Udmurt / NRU HSE. Series WP BRP "Linguistics". 2014. No. 10.
Левинзон А. И., Джакупова С. С., Плисецкая А. Д. Опыт разработки электронной системы обучения студентов академическому письму // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2014. № 6. С. 23-32.
Стаферова Д. А. СОЦИОЛИНГВИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ ВАРИАТИВНОСТИ ТВЁРДОСТИ СОГЛАСНОГО [Т] ИЛИ [Т’] ПЕРЕД ГЛАСНЫМ Е // Русский язык в научном освещении. 2014. Т. 2. № 28. С. 104-125.
Ахапкина Я. Э. Причина пожару: приименной дательный в позиции родительного // В кн.: Слово. Словарь. Словесность: Русский язык в научном, культурном и образовательном пространстве (к 190-летию со дня рождения К.Д. Ушинского). СПб. : РГПУ им. А.И. Герцена, 2014. С. 38-42.
Бонч-Осмоловская А. А. Кормить свинью online бесплатно: язык запросов как семантический объект // В кн.: Современный русский язык в Интернете / Отв. ред.: Е. В. Рахилина, Я. Э. Ахапкина. М. : Языки славянских культур, 2014. Гл. 4. С. 297-310.
Partee B., Vinogradova O. I. Reading Passages For The Course Of Semantics: Tests For Students / NRU HSE. Series WP BRP "Linguistics". 2014. No. WP BRP 08/LNG/2014.
Apresyan V. Syntactic Idioms across Languages: Corpus Evidence from Russian and English // Russian linguistics. 2014. Vol. 38. No. 2. P. 187 -203. doi