• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы автоматического выявления шума в новостных лентах

ФИО студента: Кошелева Евгения Владимировна

Руководитель: Яворский Ростислав Эдуардович

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2018

В связи с развитием Интернета значительно выросло количество информации, генерируемой различными СМИ каждый день. Это осложняет задачу поиска актуальной информации среди большего объема всех вышедших новостных статей. В новостные ленты пользователей попадает большое количество зашумленной информации. Например, новостей о темах, которые не интересуют конкретного пользователя или большое количество новостей об одном и том же событии. Для того чтобы получать полную информационную картину происходящих событий и не перезагружать человека большим количеством информации создаются новостные агрегаторы. В данной работе рассматриваются методы кластеризации новостного потока, которые могут быть использованы для автоматизированной обработки информации, собранной из новостных лент для представления ее в новостных агрегаторах. Задача кластеризации текстов для новостных агрегаторов по своей сути сводится к двум возможным направлениям: 1. Тематическое разделение новостей - кластеризация новостей, когда в один кластер должны попадать новости на одну тему. 2. Кластеризация новостей, когда в один кластер должны попадать новости об одном и том же крупном событии. В ходе работы была описан новый подход для кластеризации новостного потока, которая позволяет одновременно решать поставленные задачи. Предложен метод, в котором каждая отдельная новость представляется в виде семантического событийного графа, предоставляющего основную информацию о произошедшем. Далее эти графы объединяются в один общий и иерархическими методами определения сообществ на графе выделяются вложенные друг в друга кластеры. Кластеры, полученные на уровне с максимальным значением модулярности описывают разделения на темы, а кластеры, при дальнейшем разделении которых значение модулярности около нулевое, описывают отдельные события. Данный метод был протестирован на данных собранных из различных российских СМИ за период 02.2018–03.2018.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ