• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Миноритарные языки РФ в Интернете: количественное описание и анализ данных

ФИО студента: Крылова Ирина Владимировна

Руководитель: Орехов Борис Валерьевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Компьютерная лингвистика (Магистратура)

Оценка: 10

Год защиты: 2016

Исследование посвящено изучению представленности миноритарных языков России в Интернете. Целью исследования является создание количественного описания интернета на миноритарных языках, определение характеристик национальных интернетов и поиск параметров, на основе которых можно предсказать, будет ли представлен малый язык в интернете и в каком объёме. В исследовании были использованы разные внешние данные о языке, такие как число носителей, данные по региону распространения и некоторые другие, а также данные по собранным интернет-коллекциям: количество сайтов на малом языке, количество веб-страниц, токенов, медианное значение количества токенов на веб-страницу. Для поиска связей и зависимостей применялся анализ корреляций, многофакторная линейная регрессия и кластерный анализ. Для определения характеристик национальных интернетов был построен веб-граф. В результате было создано количественное описание национальных интернетов для более чем 40 языков, подробно были рассмотрены сайты на малых языках и их регистрационные данные, а также соотношение медианного значения токенов на веб-страницу и общего количества веб-страниц. Языки с самыми большим количеством сайтов на малом языке (башкирский, татарский, якутский, удмуртский), к сожалению, не участвовали в дальнейшем анализе. В работе была построена модель линейной регрессии на основе офлайн и онлайн данных по малому языку, с помощью которой можно приблизительно предсказать, будет ли присутствовать малый язык не из выборки в интернете. Иерархическая кластеризация показала, что все языки из выборки можно разделить на два кластера по представленности в интернете и офлайн-среде. Большинство национальных интернетов являются дисассортативными слабо связными графами, однако, общий же граф национальных интернетов ассортативен и не является слабо связным.

Текст работы (работа добавлена 7 июня 2016 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ