• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обнаружение пропаганды в новостных статьях

ФИО студента: Чикина Анна Олеговна

Руководитель: Артемова Екатерина Леонидовна

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2020

В работе решается задача бинарной классификации пропаганды в новостных статьях. Классификация была проведена для отдельных слов и фрагментов текста. Классификация проводится на данных соревнования SemEval 2020, находящихся в открытом доступе. Набор данных представляет собой размеченные статьи. Классы в используемых данных сильно несбалансированные. Задача решалась классическими методами машинного обучения и более сложными методами глубоко обучения. В работе были построены модели логистической регрессии и метода опорных векторов на лингвистических и синтаксических данных. Также была разработана и обучена нейронная сеть, архитектура которой включает токенизатор и модель для работы с последовательностями естественного языка BERT и слой двусторонней долгой кратковременной памяти (BiLSTM). В работе рассмотрены методы предобработки и аугментации текстовых данных для балансировки представленных классов, такие как замена некоторых слов на их синонимы, удаление и вставка токенов в предложении, перестановка слов местами. Также в работе описывается функция потерь, использующаяся при обучении нейронных сетей на несбалансированных классах. В работе приведены результаты бинарной классификации для моделей разного типа. Полученные результаты показывают, что более сложная архитектура модели даёт улучшение показателей метрик в задаче классификации токенов. Значения метрик для задачи классификации фрагментов сравнимы для простых моделей машинного обучения и нейронной сети на основе BERT и BiLSTM. Проведённая работа в будущем может быть положена в основу более глубоко исследования методов классификации пропаганды. Тема выделения пропаганды в наше время является актуальной и востребованной. Алгоритмы для решения этой задачи, существующие на данный момент, ещё не показали отличных результатов классификации слов и фраз текста.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ