Бакалавриат
2018/2019
Анализ баз данных в публичном управлении (I)
Статус:
Курс обязательный (Управление и аналитика в государственном секторе)
Направление:
38.03.04. Государственное и муниципальное управление
Кто читает:
Департамент государственного администрирования
Где читается:
Санкт-Петербургская школа социальных наук
Когда читается:
3-й курс, 1 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Кольцов Сергей Николаевич
Язык:
русский
Кредиты:
4
Контактные часы:
40
Программа дисциплины
Аннотация
Студенты получают представления об особенностях сбора, структурирования больших цифровых форматов данных, методах и средствах статистического, социально-сетевого анализа и машинного обучения для прогнозирования в государственном и муниципальном секторе, а также культуре работы с такими данными для целей профессиональной подготовки
Цель освоения дисциплины
- Целями освоения дисциплины являются: - изучение технологий и методов обработки и анализа данных в государственном секторе; - применение методов статистического, социально-сетевого анализа данных, машинного обучения для прогнозирования в государственном секторе; - применение навыков обоснования и элементов мониторинга направлений социально-экономической политики в системе государственного и муниципального управления на основе анализа данных.
Планируемые результаты обучения
- Различает программные средства
- Визуализирует данные с помощью пакета Orange
- Применяет кластерный анализ
- Применяет principal component analysis
- Применяет классификацию данных
- Применяет вероятностные модели
- Применяет тематического моделирование
- Применяет сентимент-анализ
Содержание учебной дисциплины
- Введение в область машинного обучения и обзор программных средствВведение в область машинного обучения и обзор программных средств. Обзор областей применения методов машинного обучения в различных отраслях, включая государственное и муниципальное управление. Обсуждение того как как современные методы машинного обучения и искусственного интеллекта меняют подходы во многих научных областях, и по-чему владение основами этих методов становится частью общей научной культуры исследователя вне зависимости от конкретной предметной области. Обсуждения типов данных, метрик качества, методологию проведения экспериментов на данных различного типа.
- Обзор математического формализма, не-обходимого для машинного обучения. Введение в пакет ‘Orange’, Препроцессинг данных, визуализация данных, общие принципы работы.Содержание темы для лекции: Обзор математического формализма, необходимого для машинного обучения. Обзор основных понятий из области линейной алгебры. Обзор эле-ментов математического анализа. Введение в пакет ‘Orange’, общие принципы работы пакета ‘Orange’. Понятие препроцессинга данных, визуализация данных.
- Kластерный анализ. K-means, Hierarchical clustering. Проблема выбора числа кластеров.Цели и задачи кластерного анализа. Обзор направлений в кластерном анализе. Меры близости. Обсуждение алгоритма К means. Анализ достоинств и недостатков данного алгоритма. Обсуждение проблемы выбора числа кластеров. Анализ разных подходов к решению проблемы числа кластеров. Обсуждение алгоритма иерархической кластеризации данных. Анализ достоинств и недостатков данного алгоритма.
- Principal Component Analysis (PCA)Обсуждение метода главных компонент. Анализ достоинств и недостатков данной модели. Обсуждение применимости данного алгоритма для различных задач.
- Классификация данных. KNN, SVM Оценка качества моделейВведение в процедуру классификации. Обсуждение метрик качества работы классификаторов (Precision, Recall, F мера, ROC, confusion matrix). Обсуждение работы алгоритма KNN. Анализ достоинств и недостатков KNN. Проблема выбора числа соседей. Оценка способа подбора числа соседей. Обсуждение алгоритма SVM (Support Vector Machines). Анализ достоинств и недостатков данного алгоритма. Обсуждение параметров в линейной и полиномиальной моделях SVM.
- Вероятностные модели. Наивный Байесовский классификаторВведение теорию вероятности. Классический и Байесовский вариант подсчета вероятности события. Правило Байеса. Априорные и апостериорные суждения. Применение наивного байесовского алгоритма для целей классификации на пример оценки надежности компании. Обсуждение достоинств и недостатков байесовского классификатора.
- Тематическое моделирование. Проблема выбора числа тем, стабильность тематического моделированияВведение в тематическое моделирование (topic modeling). Вероятностная постановка задачи классификации. Обсуждение различных моделей в области тематического моделирования (E-M алгоритмы и процедуры сэмплирования Гиббса). Обсуждение проблемы выбора числа тем. Оценка сходства и различия между тематическими решениями. Обзор программных средств в области тематического моделирования.
- Сентимент-анализ. Словарный подход, применение классификаторов для сентимент анализаВведение в сентимент анализ. Обзор моделей в данной области (словарный подход, подход на основе правил, применение классификаторов). Обсуждение достоинств и недостатков разных моделей в области сентимент анализа
Промежуточная аттестация
- Промежуточная аттестация (1 модуль)0.18 * Аудиторная + 0.42 * Контрольная работа + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Provost, Foster, Fawcett, Tom. Data Science for Business: What you need to know about data mining and data-analytic thinking. – " O'Reilly Media, Inc.", 2013.
Рекомендуемая дополнительная литература
- Rajaraman, A., & Ullman, J. D. (2012). Mining of Massive Datasets. New York, N.Y.: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408850