2. Цель работы. Стратегической целью проекта является создание, постоянное пополнение и совершенствование лингвистических корпусов (корпуса академического письма (в том числе – в сопоставительных целях – корпуса наивных переводов с английского языка и корпуса академического письма по-английски), корпуса херитажа, корпуса блогов, корпуса региолекта, а также анализ и интерпретация данных, извлекаемых из лежащих в основе каждого корпуса коллекций текстов. Принципиальная задача проекта состоит к разработке и корректировке многоступенчатой и многофакторной типологии ошибок и речевых сбоев, допускаемых носителями нестандартных вариантов русского языка. Лингвистические исследования, базирующиеся на материале корпусов и сопоставлении полученных данных с данными Национального корпуса русского языка проливают свет на природу ошибок и выявляют сферы формирования новых тенденций, связанных с развитием лексико-грамматической системы современного русского языка. Таким образом, целью проекта является теоретическая разработка принципов организации коллекций текстов и разметки этих коллекций для создания, пополнения и совершенствования лингвистических корпусов, ориентированных на социолингвистические исследования и исследования в смежных областях (политологии, психологии, социологии, антропологии): на изучение особенностей нестандартных регистров русского языка – осваиваемого неносителем-инофоном, функционирующего в регионах РФ, воплощающего новые для говорящего и пишущего жанры, унаследованного от родителей на территории иноговорящего государства.
3. Эмпирическая база исследования. В основе коллекций, послуживших исходной базой для создания корпусов, лежат полученные в ходе полевых исследований данные региолекта (записи, расшифровки, набор, первичные кодировки лексико-грамматических особенностей текста и пилотное маркирование тэгами несовпадений с кодифицированной нормой – корпусная разметка – осуществлялись участниками проекта Н. Р. Добрушиной и М. А. Даниэлем и их учениками), учебные тексты студентов НИУ ВШЭ, открытые читателю интернет-блоги, учебные тексты студентов-инофонов и херитажников, предоставленные преподавателями русского языка как иностранного (с согласия студентов).
4. Результаты работы. В ходе исследования разработаны методические принципы организации коллекций текстов, положенных в основу корпусов речи русскоговорящих жителей региона РФ (Дагестана), говорящих на условно сохранном русском языке проживающих за пределами РФ потомков эмигрантов из России, осваивающих академическое письмо студентов-первокурсников, пользователей интернет-блогов; созданы модели метаразметки данных; сконструирован поисковый инструментарий, оптимизирующий нахождение языковой единицы в корпусе; описана классификация нарушений речевого стандарта (разноуровневых ошибок пишущего). В результате проекта внедрены корпусы нестандартных регистров русской речи (академический, херитажный) и интерпретированы тенденции, связанные с реструктуризацией лексико-грамматических норм современного русского языка.
5. Степень внедрения результатов
5.1. Созданы корпусы текстов «нестандартных говорящих» (частично владеющих русским языком в том или ином его варианте), а именно:
5.1.1. Корпус русского языка детей эмигрантов ̶ «наследников» (или «херитажников»). Идиом отличается лексически и грамматически как от материкового русского языка, так и от русского, усваиваемого инофонами в качестве иностранного. Характер отступлений от нормы обусловлен не только и не столько интерференцией доминирующего языка и языка семьи, сколько специфическими внутриязыковыми закономерностями, заложенными в системе русского языка, но не реализованными или только частично реализуемыми языком метрополии. Корпус включает коллекцию эссе, ответов на вопросы с фиксированным и нефиксированным временем выполнения задания. Метаразметка позволяет определить жанр текста, идентифицировать автора нескольких текстов, соотнести языковые данные с заявленным уровнем владения языком. Последовательное расширение контекста позволяет учитывать модификации употребления языковой единицы в зависимости от характера текстового окружения.
5.1.2. Корпус региональных вариантов русского языка. Базируется на расшифрованных записях интервью с жителями сел Дагестана, осуществленных участниками проекта. Региолект отражает лексические и грамматические черты, типологически соотносимые с языками окружения (домашними языками говорящих), но не сводимые к калькированию. Сделаны дополнительные расшифровки 9 записей общим объемом звучания 310 минут. Из них 6 записей из селения Янгикент (родной язык информанта — кумыкский), 1 запись из селения Маллакент (родной язык — даргинский), 1 запись из селения Арчиб (родной язык — арчинский), 1 запись из селения Шалиб (родной язык — лакский). Принципом расшифровок является максимально точная передача сказанного, с сохранением всех особенностей речи: повторов, сбоев, оговорок, всевозможных отклонений от нормативной речи. В случае использования говорящим такого варианта слова, который не будет распознан автоматически, применяется двойная запись с расшифровкой варианта.
5.1.3. Корпус блогов. В ходе реализации проекта разработана методология сбора текстовой основы сбалансированного корпуса блогов русскоязычного сегмента интернета, учитывающая форматные свойства текстов (сообщение или комментарий), специфику функционирования текстов блогов в интернет-среде (которая основана на распространенной практике копирования и рассылки сообщений, опирается на обильно представленную визуальную составляющую поступающей информации, включает компонент координации данного сообщения с другими электронными ресурсами). Выделены основные платформы, собирающие различающиеся по социальным, возрастным и лингвистическим характеристикам группы пользователей. Выбрано 3422 блога и собран корпус объемом в общей сложности около 38,5 млн словоупотреблений.
5.1.4. Корпус ошибок носителей русского языка, обучающихся академическому письму. Корпус академического письма представляет собой коллекцию текстов, написанных студентами и магистрантами НИУ ВШЭ. Поскольку проект фокусируется прежде всего на языковой специфике тех профессиональных сфер, которыми овладевают студенты НИУ ВШЭ, в Корпус АП были включены тексты студентов только тех специальностей, обучение по которым ведется в НИУ ВШЭ (экономистов, социологов, политологов, юристов, психологов, журналистов, лингвистов, историков, логистов). Основные типы текстов, представленные в Корпусе АП, – это курсовые, дипломные и выпускные квалификационные работы, эссе, аннотации, автобиографии, ответы на вопросы. Тексты собирались в течение учебного года, охватывающего проект (2012-1013). Объем корпуса академического письма составляет около1 300 000 словоупотреблений.
5.1.5. Корпус переводов. Собраны два корпуса текстов: ошибки в текстах, переведенных на английских язык носителями русского языка (500 текстов студенческих переводов, 400 тысяч словоупотреблений; тексты снабжены метаразметкой, описывающей ситуацию перевода) и ошибки в оригинальных письменных текстах на английском языке, написанных носителями русского языка (1346 ошибок). Материалы, которые размечены студентами, включают 100 аргументативных эссе на английском языке, написанных студентами 1 курса направления ФИПЛ факультета филологии НИУ ВШЭ, объемом 50000 слов, с исправлениями и комментариями преподавателей. Источники для корпуса переводов представлены вузами РФ. Переводы выполнены студентами, обучающимися на переводческих специальностях в период с 2007 по 2013 годы, известен пол переводчика, жанр текста, оценка за перевод, год обучения, ситуация перевода (дома/в классе, экзамен/повседневная работа). Метаразметка включает следующие элементы: 2011-2012, 2012-2013 академический год, жанр, оценка, уровень знания языка. Для корпуса ошибок собирались все переводы, выполненные непрофессиональными переводчиками. Кафедры предоставляют оригиналы текстов и переводы в электронном виде, по возможности метаданные. Аргументативные эссе в рамках курса по английскому языку для студентов уровня Upper Intermediate, рецензии и абстракты в рамках курса по английскому академическому письму для студентов уровня Upper Intermediate собраны преподавателями. Оригиналы и переводы переводились в текстовый формат и подвергались процедуре автоматического выравнивания (alignment). Результат корректировался вручную, в полученный параллельный корпус добавлялись метаданные. Осуществлялась морфологическая и синтаксическая разметка, разметка по типам ошибок (переводческая или языковая, класс ошибки); грамматическая, лексическая и стилистическая разметка, включающая указание на вид ошибки и правильный вариант. Исследователи-переводоведы получают ресурс для изучения переводческих ошибок и вариативности перевода. Преподаватели перевода получают источник примеров ошибок и информации об их частотности и обусловленности ситуациями перевода. Исследователи в области foreign language acquisition получают базу разных типов ошибок, а также сведения об их частотности, позволяющие прослеживать влияние родного (русского) языка на освоение иностранного (английского) и моделировать когнитивные процессы, связанные с освоением иностранного языка. Преподаватели английского языка как иностранного, а также их студенты получают информацию о типичных ошибках у носителей русского языка и интерактивные тренажеры. Студенты-лингвисты, осваивающие академическое письмо на английском языке, получают ценный ресурс, позволяющий выявить структурные различия между русским и английским академическим письмом путем изучения ошибочных и удачных образцов академического письма; получают информацию о типичных языковых и стилистических ошибках русскоязычных авторов, пишущих на английском, о рекомендуемых синтаксических и лексических оборотах, а также о том, каких конструкций нужно избегать.
5.2. Созданы исследовательские базы данных, позволяющие аналитически рассматривать материалы корпусов:
5.2.1. Частотный портал НКРЯ – средство обеспечения аналитики частотных слов и словосочетаний, значимой лексики по корпусам и коллекциям документов (во взаимодействии с Университетом Хельсинки). Собраны биграммы и триграммы (двухсловные и трехсловные сочетания, отвечающие заданным вероятностным условиям) по Национальному корпусу русского языка. Проводится оценка максимальной длины N-граммов с точки зрения интересов пользователей и производительности поисковой системы. Метаразметка включает жанровые регистры и время создания текста. Данные подверглись технической обработке и фильтрации списка, последующей статистической обработке. Выделены частотные N-граммы. Просчитываются меры устойчивости коллокаций, абсолютная частота вхождений, количество документов, в которых встретилась единица. Типология предлагаемой разметки включает лемматизацию, части речи, грамматическую разметку, разметку дополнительных параметров (наличие пунктуации, капитализацию). Адресат ресурса — пользователи НКРЯ: русисты, специалисты по типологической лингвистике, лексикологи и лексикографы, переводчики, методисты-преподаватели русского языка. Пользователь получает предварительный анализ выдачи по корпусу (кластеризацию контекстов), оценки устойчивости коллокаций, оценки вероятности появления языковых единиц (леммы, части речи, формы определенного падежа) в ближайшем контексте. Функционал включает сортировки по статистическим мерам, выгрузку данных оффлайн и переход в НКРЯ (выдачу примеров, удовлетворяющих выбранным критериям). Ресурс обеспечивает развитие квантитативных корпусных исследований и становится базой для фундаментальных исследований в области русской грамматики.
6. Область применения результатов. Лингвистический корпус (коллекция текстов, подобранных в соответствии с конкретным критерием, в нашем случае – с ориентацией на особые регистры функционирования "нестандартного" русского языка – и оформленных специальными метками для реализации поиска заданного лингвистического объекта) позволяет исследователю-гуманитарию наблюдать за поведением языковой единицы в естественном контексте. Лингвист, социолог, историк, политолог, психолог, юрист при обращении к корпусу, основанному на записях речи современных говорящих и на письменных текстах, порожденных современниками, нуждается в сервисе, обеспечивающем быстрый поиск нужной языковой единицы (словоформы, конструкции), включая оптимальное с точки зрения скорости и простоты запроса обнаружение классифицированных отклонений от речевого стандарта. Предлагаемый продукт предоставляет возможность такого поиска. Интерпретация актуальных языковых изменений, основанная на достоверных данных, позволит усовершенствовать представление о развитии языка как системы и корректировать методики обучения родному и неродному языку.