Эти варианты порождают отступления от рекомендательной нормы в речи носителей русского языка, включая носителей нестандартных регистров. К таким регистрам относится речь инофонов, изучающих русский язык; речь жителей регионов РФ; речь студентов, начинающих использовать академическую манеру письма; речь эмигрантов, утрачивающих домашний язык; речь носителей языка, пишущих в интернет-пространстве.
Корпус как снабженная поисковым аппаратом коллекция текстов позволяет быстро находить необходимые исследователю и преподавателю речевые факты. Ненормативные высказывания изучаются в сопоставлении с образцовой речью, с диктатом системы и среды. Исследуются актуальные тенденции в формировании узуальных лексических и грамматических норм современной русской речи: в области орфоэпических сдвигов, продуктивных моделей словообразования, вариативности словоизменения и построения высказывания.
Междисциплинарный характер проекта обусловлен спецификой приложения разрабатываемых ресурсов: в политологии и регионоведении – для учета особенностей речи носителей русского языка в регионах с доминирующим иноязычием, в психологии и психопатологии, неврологии – для учета характерных речевых нарушений как симптомов расстройств общей этиологии, в социальных науках – для учета различий в идиолектах разных общественных страт, в антропологии – для учета этнической специфики речевой продукции, обусловленной ситуацией языкового взаимодействия и длительного контакта.
Проект направлен на изучение особенностей нестандартных регистров русского языка :
- осваиваемого неносителем-инофоном,
- функционирующего в регионах РФ,
- воплощающего новые для говорящего и пишущего жанры,
- унаследованного от родителей на территории иноговорящего государства.
Цель долгосрочного исследования — разработка, внедрение и последующее пополнение / совершенствование лингвистических корпусов нестандартных регистров русской речи, а также ориентированный на поиск становления актуальных норм корпусный анализ речевых данных, включающий исследования, направленные на выявление речевых аномалий, аграмматизмов и системных речевых сбоев в сопоставлении с нормой.
В фокусе внимания проекта 2014 года находились разработка и внедрение стилистического тренажера, позволяющего анализировать системные сбои в устной и письменной речи и предотвращать неосознанное нарушение нормативных предписаний в речи обучающихся нормированным стандартизованным языковым регистрам.
В ходе исследования усовершенствованы методические принципы организации коллекций текстов, положенных в основу корпусов речи русскоговорящих жителей регионов РФ, использующих условно сохранный русский язык и проживающих за пределами РФ потомков эмигрантов из России, осваивающих академическое письмо студентов-первокурсников, пользователей интернет-блогов; скорректированы модели метаразметки данных; оптимизирован поисковый инструментарий, облегчающий нахождение языковой единицы и сочетания единиц в корпусе; детально описана классификация системных нарушений речевого стандарта (разноуровневых ошибок и сбоев пишущего, диффузной границы нормы и узуальной речевой тенденции).
В результате проекта дополнены и усовершенствованы корпусы нестандартных регистров русской речи (академический, эритажный) и интерпретированы тенденции, связанные с реструктуризацией лексико-грамматических норм современного русского языка.
В 2014 году работа над проектом привела к следующим результатам.
В области теории:
- зафиксированы магистральные закономерности контекстуальной, прагматической и собственно грамматической природы, регулирующие частотные системные сбои в области грамматической стилистики на письме в текстах инофонов, эритажных говорящих и носителей русского языка, связанные с разрушением компаративной конструкции, падежным варьированием при глагольном и именном управлении, выбором формы числа предиката при множественном субъекте;
- предложена концепция лингвистического анализа речевых данных, восходящая к идеям "грамматики ошибок" (А. Фрей, Л. В. Щерба): к рассмотрению отрицательного языкового материала как отражения развития языковой системы, позволяющего выявлять в многообразии речевого варьирования тенденции слома жестких запретов и ограничений, наложенных речевой традицией и консервативной рекомендательной нормой (концепция позволяет анализировать лексическое и грамматическое варьирование в сопоставлении с функционированием лексикона и грамматикона неродственных языков и описывать речевые аномалии и колебания в пределах нормы в типологическом аспекте);
- разработана и внедрена модель стилистического тренажера, призванного способствовать профилактике провоцируемых узусом типичных речевых нарушений, концентрации внимания пишущего на зонах грамматического риска, рефлексии над лексической и грамматической вариативностью средств выражения замысла в ходе редактирования русскоязычного текста;
- описаны тенденции речевого варьирования на материале корпусных и интернет-данных, а также на материале полевых данных с применением корпусных технологий анализа материала (в области смягчения переднеязычных взрывных согласных, синтаксических аномалий поискового запроса, особенностей построения вокабуляра наивной поэзии, стратегий переосмысления ключевых понятий в политическом и медийном дискурсах);
- созданы и первично описаны коллекции данных, позволяющих проводить аналитику корпусного материала: исследования по лексической типологии – для описания семантических групп лексики (с точки зрения появления многозначности единиц и грамматикализации конструкций) в русском языке в сопоставлении с представительной выборкой больших и малых языков мира;
- сформулированы теоретические предпосылки создания классификационных сетей для выявления речевых аномалий в корпусах речи "нестандартных говорящих" и предложены образцы рабочих сетей.
В развитии методологии:
- сформированы уточненные классификации речевых сбоев грамматической и семантической природы для всех видов разрабатывемых ресурсов, предложены иснструкции для разметчиков коллекций;
- усовершенствованы методические принципы организации коллекций текстов, положенных в основу корпусов речи русскоговорящих жителей регионов РФ, использующих условно сохранный русский язык и проживающих за пределами РФ потомков эмигрантов из России, осваивающих академическое письмо студентов-первокурсников, пользователей интернет-блогов;
- скорректированы модели метаразметки данных;
- оптимизирован поисковый инструментарий, облегчающий нахождение языковой единицы и сочетания единиц в корпусе;
- детально описана классификация системных нарушений речевого стандарта (разноуровневых ошибок и сбоев пишущего, диффузной границы нормы и узуальной речевой тенденции);
В получении новых эмпирических данных:
- в 2014 году пополнялись и совершенствовались созданные на первых этапах работы проекта в 2012-2013 годах корпусы речевой продукции «нестандартных говорящих» (частично владеющих русским языком в том или ином его варианте), а именно Корпус русского языка детей эмигрантов и «наследников» (или «херитажников», эритажников) – во взаимодействии с университетом Хельсинки, Гарвардским университетом, учительским сообществом Берлина; Корпус региональных вариантов русского языка (Кавказ) – с возможностью его дальнейшего расширения (русский язык на постсоветском пространстве); Корпус ошибок носителей русского языка (Корпус русских учебных текстов), обучающихся академическому письму, и неносителей (инофонов), обучающихся русскому языку (для последующей оценки частотности типов ошибок и настройки методик преподавания); Корпус наивных переводов; Корпус академического письма в рамках освоения английского языка русскоговорящими; Корпус речи интернет-коммуникантов (блогеров);
- по Корпусу русских учебных текстов
http://web-corpora.net/RussianAcademCorpus/search/?interface_language=ru
Объем корпуса превышает 2 280 000 словоупотреблений.
Осуществлена и скорректирована метаразметка (лингвистические и социолингвистические сведения о пишущем, о жанре и типе текста, дополнительные сведения, облегчающие создание подкорпуса и организацию поискового запроса, добавлена помета, указывающая на цитирование – ввод чужой речи). Корпус снабжен морфологической (частеречной, категориальной) разметкой. 300 000 словоупотреблений размечены с учетом типа ошибки (речевого сбоя, нарушения рекомендательн6ой нормы);
- по Корпусу академического письма: английский язык
http://rus-ltc.org
http://dev.rus-ltc.org/brat/#/esl/
225 000 словоупотреблений в корпусе.
794 текста студенческих учебных работ.
10 364 ошибки относительно прескриптивной нормы.
151 тип ошибки в развернутой классификации; за 2014 год было сделано 7800 изменений в аннотациях (включая создание новых элементов и изменение существующей разметки); добавлено 357 текстов, что составляет 93 234 слов.
Разработана классификации ошибок в области глагольных моделей управления и дискурса, а также проведен анализ ошибок, вызванных влиянием русского языка (интерференцией, приводящей к калькированию). Разработаны инструкции для разметчиков;
- по Корпусу эритажа
http://web-corpora.net/RussianLearnerCorpus/search/
Объем корпуса после снятия омонимии (январь-май 2014 года) составил 400 000 словоупотреблений (актуальные «чистые» данные);
- по Корпусу наивных переводов
в 2014 году добавлены тексты, общий объем которых в ресурсе Russian Learner Translator Corpus (RLTC) составляет 1 305 515 слов. Проведена профилактическая чистка коллекции для устранения системных ошибок разметки.
- по Корпусу дагестанского варианта русского языка (2014 год)
записано новых текстов: около 10 часов аудиозаписи, расшифровано новых текстов: 60 000 слов; размечено ошибок: около 1000, выровнено со звуком в программе praat: 60 000 слов.
Разработаны шаблоны вариантов стилистического тренажера на основе Корпуса русских учебных текстов (12 упражнений по 15 предложений, 18 вариантов прошли двойную редакторскую правку и 10 вариантов находятся в стадии дополнительного редактирования).
Шаблон наполнен тематически и стилистически адекватными высказываниями (социологического, юридического, экономического, психологического, философского дискурсов).
Тренажер позволяет корректировать навыки студентов в редактировании профессионального текста, формировать языковую интуицию, проводить диагностику уровня владения профессиональным регистром родного языка (индивидуальную, групповую, срезовую). Новаторство тренажера заключается в возможности автоматической проверки заданий с кратким регламентированным и свободно конструируемым ответом. Разработка тренажера связана с фундаментальными проблемами теоретической стилистики, лингвистики текста, позволяет внести вклад в развитие теории эрратологии (науки о речевых сбоях и ошибках) на материале русского языка и его вариантов, связана с прикладными аспектами проектирования контрольно-измерительных материалов, тестологии и теории теста. Разработка тренажера, ориентированного на компетентностный подход к обучению и контролю лингвистических представлений и навыков, обеспечивает возможность перейти к построению комплекса контрольно-измерительных материалов нового поколения. Тренажер создан на безе анализа корпусных данных и на основе классификаций речевых сбоев, разработанной в ходе создания коллекции учебных текстов.
Совершенствовалась система корпусной разметки. В задачи исследования входило составление двух систем тегов (различительных маркеров для фрагмента речевой цепи), позволяющих оптимизировать поиск отклонений от нормы в корпусах речи нестандартных регистров. Тэги отражают 1) типичные ошибки носителей русского языка как второго родного; 2) ошибки, характерные для авторов академических текстов. Проведена разработка принципов выстраивания единой системы тегов для двух типов текстов на основе а) полученных при анализе коллекций моделей; б) моделей, принятых в посвященных проблематике эрратологии исследованиях европейских коллег.
5-6. Проведенные на базе созданных корпусов и при сопоставительном анализе данных академического корпуса, Национального корпуса русского языка и интернет-дискурса исследования вносят вклад в социолингвистическую теорию изменений в языке, связанных с языковыми контактами и региональной вариативностью. Реализовано совершенствование usage-based model подхода к исследованию нестандартных вариантов языка с опорой на корпусные данные. Проведено уточнение модели дефицита компетенций и «точек роста» (тенденций к изменениям языка, зон вариативности и системно допустимого выбора); организовано включение региональных и социальных факторов в модель. Описаны универсальные и специфические параметры лексических систем языка с опорой на данные нестандартных регистров (региолекта, херитажа (эритажа), речи инофонов, эрратологического пласта в речи носителей языка).
На основе проводимых исследований реализуется конвергенция полевых и корпусных методов, корректировка принципов сбора, балансировки и специальной аннотации корпусов; продолжается разработка принципов представления грамматических и лексических особенностей нестандартных вариантов русского языка в корпусе; совершенствуются настройки образовательной модели обучения русскому языку для неканонических говорящих (imperfect learners): разрабатываются коррекционные программы для носителей региональных вариантов русского языка, программы академического письма.
Уточнена типология ошибок: выделены системные ошибки как маркеры «точек роста» — высокорелевантных языковых изменений; выявлены характерные (для региональных вариантов русского как родного и неродного) особенности, распределенные по языковым уровням: фонетические, лексические, грамматические; выделены нестандартные особенности письма для вариантов русского языка в категориях «электронная коммуникация» и «академическое письмо».