• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы машинного обучения для анализа тональности коротких текстов

ФИО студента: Шахов Дмитрий Михайлович

Руководитель: Голов Николай Игоревич

Кампус/факультет: Высшая школа бизнеса

Программа: Бизнес-информатика (Бакалавриат)

Оценка: 9

Год защиты: 2019

В данной работе было проведено исследование, направленное на идентификацию токсичного поведения в Интернете, выражающегося в написании гневных и агрессивных по манере комментариев. На основе методов машинного обучения с учителем была проведена multi-labeled классификация таких комментариев по типу токсичности (токсичный, сильнотоксичный, неприличный, угроза, расистский). Предварительно был дан обзор используемых в практической части подходов. В практической же части работы было показано, что линейные методы, основанные на модели мешка слов, в силу небольшой длины комментариев, не могут эффективно решать задачу классификации коротких текстов. По той же причине дополнительные свёрточные слои не дают прироста качества базовым моделям, основанным на рекуррентных нейронных сетях. Несмотря на высокую прогнозную точность базовых моделей на основе архитектур LSTM и GRU, их метрики удалось ещё улучшить за счёт: включения в модель слоя «Attention», выделяющего наиболее важные для оценки попадания в тот или иной класс слова в тексте; использования векторов модели GloVe с большей размерностью.

Текст работы (работа добавлена 15 мая 2019 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ