• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Костяницына Анастасия Михайловна
Разработка универсального Phonetic algorithm для IPA
2019
Идея сравнения слов на основе их произношения, а не на основе их написания, уже давно обсуждается научным сообществом. В результате чего были разработаны фонетические алгоритмы. Фонетический алгоритм - это алгоритм сравнения слов на основе их произношения. Идеей данного алгоритма является приведение строк, записанных с помощью графем, к фонетическому представлению и их сравнение с помощью различных метрик поиска расстояния. Хотя подобные алгоритмы были описаны ранее, многие из них были специализированы для конкретной исследовательской задачи, например, конкретного языка. В настоящей работе мы представим универсальный фонетический алгоритм, который вычисляет расстояния между транскрипциями слов, и его программную реализацию. Универсальность алгоритма достигается за счет использования Международного Фонетического Алфавита (МФА). МФА - это фонетическая система обозначений, созданная Международной фонетической Ассоциацией, которая использует набор символов на основе латинского алфавита для представления звуков, которые существуют в человеческих разговорных языках. Алгоритм представляет каждый символ транскрипции, записанной с помощью МФА, в виде вектора, описывающего звук с точки зрения фонетических признаков. В качестве такого описания нами была выбрана фонологическая система Хомского и Халле. Расстояние между транскрипциями рассчитывается с помощью модифицированного варианта расстояния Дамерау-Левенштейна, где стоимость замены равна расстоянию между векторами символов транскрипции. Помимо сравнения фонетических транскрипций, программа предоставляет возможность автоматического трансформирования строк в фонетические представления. Результатом исследования является алгоритм и его реализация в качестве пакета для языка программирования Python. Пакет применим для задачи сравнения фонетических строк, которая активно используется для кластеризации языков и диалектов. Поскольку он использует широкий спектр фонетических символов и фонологических особенностей, он подходит для различных исследовательских данных.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР