• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Программа анализа тональности текстов на основе деревьев синтаксических зависимостей с использованием методов машинного обучения

ФИО студента: Сметанин Сергей Игоревич

Руководитель: Ахметсафина Римма Закиевна

Кампус/факультет: Факультет компьютерных наук

Программа: Программная инженерия (Бакалавриат)

Оценка: 10

Год защиты: 2016

Работа посвящена бинарной классификации тональности русскоязычных текстов с использованием синтаксических признаков. В работе рассмотрены основные подходы к анализу тональности текстов, проанализированы подходы к извлечению синтаксических зависимостей в предложениях. Кроме того, приведено описание различных способов извлечения признаков для классификации эмоциональной окраски текстов. Объектом разработки является Python-библиотека для бинарной классификации эмоциональной окраски русскоязычных текстов. Реализованы методы предварительной обработки текста и подходы представления текстовой информации в векторном виде. Реализован подход к извлечению синтаксических признаков из текста, а так же реализованы алгоритм наивного Байесовского классификатора с мультиномиальным распределением и классификатор на основе метода K-ближайших соседей. Для оценки качества алгоритмов описаны и реализованы ключевые метрики. По результатам оценки качества работы алгоритмов с разными наборами признаков для классификации, синтаксические признаки показали значительное улучшение качества классификации. Исследование прошло апробацию: Сметанин, С.И. Выявление отношения пользователей к продукту на основе анализа тональности сообщений в социальных сетях // Электронный бизнес. Управление интернет-проектами. Инновации: сборник трудов участников VIII Студенческой научно-практической конференции, Москва, март 2016 - М: Изд. дом Высшей школы экономики, 2016 - in press. Сметанин, С.И. Программа для анализа тональности сообщений в социальных сетях // Сборник тезисов XXII Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов 2016». - М: МАКС Пресс, апрель 2016. – С. 86-87. Работа содержит 66 страниц, 3 главы, 5 рисунков, 35 таблиц, 50 источников, 5 приложений. Ключевые слова: обработка естественных языков, анализ тональности, частеречная разметка, морфологическая омонимия, синтаксический анализ.

Текст работы (работа добавлена 26 мая 2016 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ