• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Корпус детской речи в формате CHILDES

Лонгитюдное наблюдение за спонтанной детской речью является важным методом исследования ранних этапов усвоения языка детьми. Для русского языка подобные наблюдения за речевым развитием детей описаны в работах А.Н. Гвоздева, С.Н. Цейтлин, Н.В. Гагариной, М.Д. Воейковой, Eva Bar-Shalom, Vera Kempe и других. В результате были сформулированы выводы о том, как отдельные дети усваивают грамматические категории существительных и глаголов. Между тем для более надежных выводов о ранних этапах усвоения речи необходимо большое количество современных данных, проанализированных с использованием методов компьютерной лингвистики. В базе данных CHILDES (Child Language Data Exchange System) собраны записи детской речи для более чем 40 языков, однако объем записей русского языка очень невелик.

Задача проекта CHILDES для русского языка — на материале видеозаписей общения русскоговорящих детей в семейном кругу создать современный корпус устной речи и изучить процесс усвоения языка детьми от 1 года до 3 лет. Мы исследуем не только последовательность освоения ребенком различных языковых закономерностей, но и языковой инпут, то есть речь взрослых, обращенную к ребенку. Предполагается, что языковой инпут оказывает существенное влияние на все этапы освоения языка ребенком, и именно лонгитюдные данные позволяют провести анализ входящих речевых обращений к ребенку в процессе освоения речи.

В 2016-2019 годах были сделаны и обработаны записи девочки и мальчика из разных семей. В 2020-2022 годах к проекту присоединились еще пять семей. Мы будем рады новым участникам проекта!

Семьи, которые участвуют в проекте, раз в две недели записывают на видео обычное взаимодействие ребёнка со взрослым. Затем исследователи транскрибируют записанную речь в программе CLAN (Child Language Analysis). Получившийся текст проходит морфологическую разметку при помощи программы MyStem, а случаи морфологической неоднозначности разрешаются вручную. 


В 2020 году одним из направлений нашей работы стало исследование траектории усвоения грамматических категорий имени существительного и глагола, а также изучение грамматических характеристик инпута и его влияние на усвоение этих категорий. Предварительные результаты корпусов двух детей свидетельствуют о том, что существительные среднего рода в речи детей являются менее частотными, чем существительные мужского и женских родов, а формы единственного числа преобладают над формами множественного. Наиболее частотным падежом в речи детей является именительный, из косвенных падежей раньше всего усваиваются винительный и родительный. Наиболее сложным для усвоения является творительный падеж. Интересно, что наши данные показали, что статистические свойства инпута практически не менялись по мере взросления детей. 

Мы также выяснили, что глаголы несовершенного вида практически на всех этапах преобладают над глаголами совершенного вида, единственное число преобладает над множественным. Наиболее долго и сложно усваиваемым временем для детей является будущее, позже всего усваивается 2 лицо. Ребенок слышит большое количество инфинитивов и императивов и часто употребляет их в своей речи. Исследование инпута показало, что оба ребенка в течение всего времени записи слышали больше глаголов несовершенного вида; настоящее время преобладало над прошедшим и над будущим; дети слышали больше форм 2-го лица, чем форм 3 лица и чем форм 1 лица, а также больше форм единственного, чем множественного числа. Инпут оставался относительно неизменным на протяжении всего времени записи.


В 2021 году мы исследовали формирование словарного запаса и проверили гипотезу, сформулированную в работе (Mani & Ackermann, 2018): дети быстрее усваивают слова из той семантической категории, в которой уже содержится много слов. В нашей работе для этой цели впервые использовался векторный семантический анализ. Результаты показали, что группы, выделившиеся в первом периоде, увеличиваются ко второму периоду. Во втором периоде также появляются новые кластеры, но их размеры сравнительно меньше. Это может говорить о частичном подтверждении гипотезы.

Была продолжена работа по изучению ранних стадий усвоения морфосинтаксиса. Мы выяснили, что глагольные формы первого лица появляются в речи детей одними из первых, формы же второго лица появляются позже других. Были сделаны интересные выводы о структуре фразы в речи детей до трёх лет. Порядок слов у детей тяготеет к SVO, однако дети чаще, чем взрослые склонны выносить объект перед глаголом. На ранних этапах для детей оказывается трудным порождение предложений с двумя номинативными глагольными аргументами, поэтому в высказываниях, которые строят дети один из глагольных актантов почти всегда выражен местоимением.

Далее мы продолжили исследовать словарный запас детей на раннем этапе и проверили гипотезу о наличии лексического взрыва на материале двух детей. Гипотеза о существовании лексического взрыва на наших данных подтвердилась, однако возрастные рамки явления не совпали с установленными в предыдущих источниках: у обоих детей в нашем исследовании лексический взрыв произошел в течение третьего года жизни, в то время как обычно его рамки ограничивались двумя годами.


В 2022 году в Центре языка и мозга было принято решение объединиться с коллегами из других стран и создать единую базу данных, содержащую данные русскоязычных моно- и билингвальных детей, обработанные по протоколу BiRCh. BiRCh - многолетний проект по созданию лонгитюдного корпуса детской речи, который содержит данные моно- и билингвальных детей на протяжении 5-10 лет их жизни. Сейчас мы работаем с новыми лонгитюдными данными трех билингвов и переводим имеющиеся данные монолингвов в новый формат.

На материале данных, собранных в рамках проекта CHILDES, началась работа по созданию Индекса Продуктивности Синтаксиса для русского языка – метода количественной оценки грамматической сложности образцов спонтанной речи маленьких детей. Мы также начали работу с билингвальными данными и планируем проверить на них гипотезу о сокращенном инпуте у билингвов.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.