Анализ баз данных в публичном управлении (I)

Бакалавриат 2018/2019

Статус: Курс обязательный (Управление и аналитика в государственном секторе)

Направление: 38.03.04. Государственное и муниципальное управление

Кто читает: Департамент государственного администрирования

Где читается: Санкт-Петербургская школа социальных наук

Когда читается: 3-й курс, 1 модуль

Формат изучения: без онлайн-курса

Преподаватели: Кольцов Сергей Николаевич

Язык: русский

Кредиты: 4

Контактные часы: 40

Полная версия программы учебной дисциплины

Аннотация

Студенты получают представления об особенностях сбора, структурирования больших цифровых форматов данных, методах и средствах статистического, социально-сетевого анализа и машинного обучения для прогнозирования в государственном и муниципальном секторе, а также культуре работы с такими данными для целей профессиональной подготовки

Цель освоения дисциплины

Целями освоения дисциплины являются: - изучение технологий и методов обработки и анализа данных в государственном секторе; - применение методов статистического, социально-сетевого анализа данных, машинного обучения для прогнозирования в государственном секторе; - применение навыков обоснования и элементов мониторинга направлений социально-экономической политики в системе государственного и муниципального управления на основе анализа данных.

Планируемые результаты обучения

Различает программные средства
Визуализирует данные с помощью пакета Orange
Применяет кластерный анализ
Применяет principal component analysis
Применяет классификацию данных
Применяет вероятностные модели
Применяет тематического моделирование
Применяет сентимент-анализ

Содержание учебной дисциплины

Введение в область машинного обучения и обзор программных средств
Введение в область машинного обучения и обзор программных средств. Обзор областей применения методов машинного обучения в различных отраслях, включая государственное и муниципальное управление. Обсуждение того как как современные методы машинного обучения и искусственного интеллекта меняют подходы во многих научных областях, и по-чему владение основами этих методов становится частью общей научной культуры исследователя вне зависимости от конкретной предметной области. Обсуждения типов данных, метрик качества, методологию проведения экспериментов на данных различного типа.
Обзор математического формализма, не-обходимого для машинного обучения. Введение в пакет ‘Orange’, Препроцессинг данных, визуализация данных, общие принципы работы.
Содержание темы для лекции: Обзор математического формализма, необходимого для машинного обучения. Обзор основных понятий из области линейной алгебры. Обзор эле-ментов математического анализа. Введение в пакет ‘Orange’, общие принципы работы пакета ‘Orange’. Понятие препроцессинга данных, визуализация данных.
Kластерный анализ. K-means, Hierarchical clustering. Проблема выбора числа кластеров.
Цели и задачи кластерного анализа. Обзор направлений в кластерном анализе. Меры близости. Обсуждение алгоритма К means. Анализ достоинств и недостатков данного алгоритма. Обсуждение проблемы выбора числа кластеров. Анализ разных подходов к решению проблемы числа кластеров. Обсуждение алгоритма иерархической кластеризации данных. Анализ достоинств и недостатков данного алгоритма.
Principal Component Analysis (PCA)
Обсуждение метода главных компонент. Анализ достоинств и недостатков данной модели. Обсуждение применимости данного алгоритма для различных задач.
Классификация данных. KNN, SVM Оценка качества моделей
Введение в процедуру классификации. Обсуждение метрик качества работы классификаторов (Precision, Recall, F мера, ROC, confusion matrix). Обсуждение работы алгоритма KNN. Анализ достоинств и недостатков KNN. Проблема выбора числа соседей. Оценка способа подбора числа соседей. Обсуждение алгоритма SVM (Support Vector Machines). Анализ достоинств и недостатков данного алгоритма. Обсуждение параметров в линейной и полиномиальной моделях SVM.
Вероятностные модели. Наивный Байесовский классификатор
Введение теорию вероятности. Классический и Байесовский вариант подсчета вероятности события. Правило Байеса. Априорные и апостериорные суждения. Применение наивного байесовского алгоритма для целей классификации на пример оценки надежности компании. Обсуждение достоинств и недостатков байесовского классификатора.
Тематическое моделирование. Проблема выбора числа тем, стабильность тематического моделирования
Введение в тематическое моделирование (topic modeling). Вероятностная постановка задачи классификации. Обсуждение различных моделей в области тематического моделирования (E-M алгоритмы и процедуры сэмплирования Гиббса). Обсуждение проблемы выбора числа тем. Оценка сходства и различия между тематическими решениями. Обзор программных средств в области тематического моделирования.
Сентимент-анализ. Словарный подход, применение классификаторов для сентимент анализа
Введение в сентимент анализ. Обзор моделей в данной области (словарный подход, подход на основе правил, применение классификаторов). Обсуждение достоинств и недостатков разных моделей в области сентимент анализа

Элементы контроля

Аудиторная
Контрольная работа
Экзамен

Промежуточная аттестация

Промежуточная аттестация (1 модуль)
0.18 * Аудиторная + 0.42 * Контрольная работа + 0.4 * Экзамен

Программа дисциплины