• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сравнение методов эмбеддинга русскоязычных предложений на лингвистическом тесте SentEval

ФИО студента: Масленникова Елизавета Андреевна

Руководитель: Крылов Владимир Владимирович

Кампус/факультет: Факультет информатики, математики и компьютерных наук (Нижний Новгород)

Программа: Интеллектуальный анализ данных (Магистратура)

Год защиты: 2020

В настоящее время люди очень сильно поглощены идеями разработки и воплощения в жизнь искусственного интеллекта. Сейчас простой пользователь смартфона может даже не представлять, на сколько сильно его мобильный телефон пропитан новейшими технологиями и алгоритмами машинного обучения. В последнее время большую популярность набирают разные голосовые помощники, которые сильно облегчают человеку его повседневную жизнь. Но на пути этого прогресса всегда стояла и до сих является актуальной проблема взаимодействия между человеком и устройством, так как естественный язык, на котором изъясняются люди, является очень сложной структурой. При этом компьютер может оперировать только наборами чисел. Поэтому для конвертации текстов в «понятный» для компьютера вид используют различного рода эмбеддинги. На данный момент было предложено большое множество таких моделей. Но в основном все они основываются либо на простом кодировании букв, из которых состоит слово, либо кодированием целых слов, не учитывая их лексический смысл. Более того, такие модели показывают плохое качество трансформации целого набора предложений, абзацев или же просто больших текстов, где каждое следующее предложение так или иначе зависит от предыдущего, продолжая его основную идею. Рассмотрение же только одной фразы, вырванной из контекста, зачастую недостаточно для грамотного понимания и анализа всего рассматриваемого текста. Поэтому в последние годы исследователи достаточно активно разрабатывают модели трансформации текстов на основе обработки целых предложений как единой структурной единицы, которые объединяют и его семантику, и синтаксис, и лексическое значение целых отрывков. Данная работа как раз и посвящена исследованию эффективности применения различных моделей векторных представлений предложений для русскоязычных предложений с учетом особенностей языка. Данная область исследований является достаточно новой, в научной литературе имеется совсем небольшое количество исследований на тему именно векторных представлений целых предложений, которые в большинстве своем предназначены для английского как для универсального международного языка. Более того, практически нет предобученных моделей эмбеддингов предложений для русского языка и совсем отсутствуют исследования, в котором сравнивается именно качество различных моделей для разных задач с учетом особенностей используемого языка, что подчеркивает научную новизну и практическую значимость данной работы.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ