• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическое извлечение тональных фреймов

ФИО студента: Щенников Никита Юрьевич

Руководитель: Толдова Светлана Юрьевна

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Оценка: 7

Год защиты: 2020

Анализ тональности текста - востребованная и быстро развивающаяся отрасль анализа текста, которая широко используется в различных областях НЛП. К сожалению, во многих исследованиях в этой области присутствуют значительные проблемы. Большинство из этих исследований узко специализированы, и полученные результаты не применимы к другим задачам. В связи с тем, что большая часть предыдущих работ основана на тематических наборах данных, это исследование должно по другому посмотреть на эту проблему, отлично от стандартного подхода. Несмотря на растущую популярность и удобство в использовании таких моделей, как BERT и Open AI GPT-2, и их выдающихся текстовых предсказаний, анализ тональностей атематичных текстов все еще остается довольно сложной задачей даже для них. Основная идея этой работы заключается в расширении существующего словаря тональных фреймов, используя модели классификации. В этом исследовании мы будем улучшать метод анаилза настроения текста, опираясь на работу Карнауховой и Лукачевич. Тональный фрейм - это опосредованная глаголом модель связей предикатов, основанная на идее, что предикат может влиять на полярность субъекта и объекта предложения (например, «X выигрывал Y» подразумевает, что X положительный, а Y отрицательный). Так, согласно Денгу и Вибе, глагол может менять полярность слов, которые с ним связаны. Таким образом, получается, что фрейм выступает как набор энциклопедических, языковых и когнитивных знаний. Используя корпус коротких текстов на основе Твиттера, мы хотим решить проблему тематических и объективных наборов данных. На основе этих данных мы хотим извлечь информацию о глаголах и преобразовать их в признаки для моделей классификации. Данные из коротких текстов будут извлечены двумя разными способами. Первый - токенизатор от NLTK в сочетании с pymorphy2. Второй - более точная и высокоразвитая модель на основе BERT - deeppavlov. Использование первого метода в нашей задаче может дать нам начальный взгляд на проблему и возможные результаты, после чего появится возможность более глубокого и контекстуального исследования. Мы считаем, что этот подход может дать нам информацию, которая может быть полезна для решения проблемы оценки тональности текста. В будущем использование тональных фреймов в сочетании с современными решениями для классификации и эмбеддинга может поомчь по-новому взглянуть на эту проблему.

Текст работы (работа добавлена 30 мая 2020 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ