Методы классификации для поиска закономерностей в демографических последовательностях

ФИО студента: Муратова Анна Александровна

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Оценка: 9

Год защиты: 2017

В настоящее время накопилось большое количество демографических данных, которые необходимо проанализировать и проинтерпретировать. Из накопленных демографических данных можно извлечь больше полезной информации, применив современные методы майнинга данных. Данные для анализа были предоставлены институтом демографии НИУ ВШЭ. В них представлены результаты опроса 6626 человек, среди которых 3314 мужчин и 3312 женщин. Для каждого человека указаны даты значимых первых событий в их жизни, такие как: партнер, брак, расставание, развод, образование, работа, отделение от родителей, рождение ребенка. Также указаны признаки: тип образования (общее, высшее, профессиональное), место жительства (город, поселок городского типа, деревня), религиозность и частота посещения служб, поколение (советские 1930-1969 и современные 1970-1986) и пол. В ходе работы были выведены и доказаны формулы для вычисления мер сходства последовательностей без разрыва, которые потом были применены в качестве ядер в методе SVM. Целью работы было сравнение методов классификации демографических данных с помощью кастомизации ядра SVM с использованием различных мер сходства. Также произведено сравнение нейросетевых алгоритмов. Совместно с демографами был разработан и осуществлен универсальный алгоритм по чистке данных, так как данные содержат большое количество разнообразных ошибок и опечаток. Для выполнения работы были написаны программы на языке Python, с помощью которых обработаны исходные демографические данные. Лучшие результаты классификации получены с помощью специальной функции ядра в SVM для обработки последовательностей, а также с помощью рекуррентной нейронной сети. Новизной работы является использование специальных вариантов ядер в методе SVM. Кроме того, были улучшены результаты с помощью нейросетевых алгоритмов. Ключевые слова: анализ данных, демография, машины опорных векторов, нейронные сети, ядра, префиксы, подпоследовательности, меры сходства.

Текст работы (работа добавлена 30 мая 2017 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ