• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Классификация и анализ событий из новостных лент с целью выделения основных харакетристик регионов России и их показателей

ФИО студента: Сусманова Софья Сергеевна

Руководитель: Яворский Ростислав Эдуардович

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2016

Российская Федерация занимает площадь около 17 миллионов 〖км〗^2, и на ее территории расположено 89 регионов, различающихся по массе показателей. При этом время не стоит на месте, и изучение меняющегося характера региона и его проблем представляет собой сложную задачу – особенно в условиях ограниченного времени. Современные средства работы с данными не заточены под эту задачу и не могут дать представления о структуре регионального информационного поля. Данная работа основана на предположении, что необходимая информация о регионах может быть получена из лент локальных новостей. Цель данной работы – разработка алгоритма-анализатора для выделения ключевых слов из текста региональных новостей и его применение: Ко всему корпусу новостей – для понимания общего регионального дискурса; К категориям региональных новостей – для понимания ключевых ассоциативных правил в категории. К задачам данного исследования относятся: Разработка RSS-парсера и формирование корпуса новостей; Преобразование корпуса для проведения анализа; Разработка алгоритма выделения ключевых слов из региональных лент на основе алгоритма случайных лесов; Сравнение разработанного алгоритма с подходом частотного анализа TF-IDF; Формирование результатов работы анализатора для региона в целом и для категории. Результатом работы стал алгоритм, выделяющий ключевые слова регионального контекста на хорошем уровне. Применение анализатора к категориям позволило выделить превалирующие ассоциативные правила для базовых социальных понятий – применительно к региону. Новизна данной работы заключается в том, что мы не просто ищем ключевые слова, а объединяем проблему выделения ключевых слов с классификацией – найденные базовые понятия для региона должны быть не только репрезентативными в рамках региона, но и являться отличительными признаками региона относительно других регионов.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ