• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Программная библиотека для лингвистической типологии на языке Python

ФИО студента: Воронов Михаил Кириллович

Руководитель: Орехов Борис Валерьевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Оценка: 8

Год защиты: 2019

Язык программировния Python широко применяется среди лингвистов. В этой работе я рассказываю о новом пакете для лингвистической типологии: LingTypology. Этот пакет является аналогом одноимённого пакета для языка R. Пакет предостовляет интерфейс для доступа к разным лингвистическим базам данных, а также позволяет создавать интерактивные карты. И то, и другое может быть полезно для типологических исследований. API для лингвистических баз данных позволяет получать данные автоматически, упрощая проведение таких исследований и повышая их воспроизводимость. Для демонстрации функционала пакета LingTypology в этой работе приводится несколько типологических исследований, проведённых с его помощью. Первое исследование воспроизводит один из выводов статьи Эверетта об абруптивных и высоте на данных из базы PHOIBLE. Здесь мы пришли к тому же результату: доля языков с абруптивными выше там в местах, где высота больше 1500 метров. Также, для демонстрации того, что с помощью LingTypology можно легко пробовать искать зависимости, не имеющие теоретического обоснования, были проведены два исследования на данных из PHOIBLE, Autotyp и WALS. В первом из них мы пытаемся найти зависимости с высотой в данных из PHOIBLE и Autotyp. В случае с PHOIBLE был применён критерий хи-квадрат, и никаких статистически значимых зависимостей обнаружено не было. В случае с Autotyp была применена линейная регрессия и на некоторых данных p-value оказалось меньше 0.05. Во втором исследовании мы ищем импликативные универсалии среди бинарных признаков из WALS (например, что присутствует или отсутствует в языке). Мы посчитали хи-квадрат для каждой пары страниц из WALS и получили отрицательный результат. Вторая возможность пакета - интерактивные карты - может быть использована для визуализации данных. LingTypology позволяет создавать интерактивные лингвистические карты, используя данные из базы Glottolog. LingTypology позволяет отрисовывать карты в формате HTML, что позволяет использовать их на веб-сайтах и в онлайн-публикациях, а также в формате PNG, что позволяет включать их в раздаточные материалы, презентации и бумажные статьи.

Текст работы (работа добавлена 4 июня 2019 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ