Бакалавриат
2019/2020
Компьютерное сопровождение анализа документов публичного управления
Статус:
Курс обязательный (Управление и аналитика в государственном секторе/ Государственное и муниципальное управление)
Направление:
38.03.04. Государственное и муниципальное управление
Кто читает:
Департамент государственного администрирования
Где читается:
Санкт-Петербургская школа социальных наук
Когда читается:
3-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Кольцов Сергей Николаевич
Язык:
русский
Кредиты:
6
Контактные часы:
44
Программа дисциплины
Аннотация
Информационные технологии для обработки документов в публичном управлении связаны, с одной стороны с обработкой больших данных, с другой стороны, связанны с навыками разработки информационных систем, поэтому целями освоения данной дисциплины является, во-первых, обучение первичной обработке и организации данных (препроцессингу данных, работа с пропущенными данными, выделение необходимых признаков), во-вторых, применение стандартных моделей методов машинного обучения реализованных в различных библиотеках на языке python (кластерный анализа, классификация, тематическое моделирование, рекомендательные системы и нейронные сети), в-третьих, применение методов машинного обучения для разработки информационных систем в области государственного и муниципального управления, в четвертых, формирование навыков аналитика данных. Настоящая дисциплина относится к циклу дисциплин «Дисциплины профессионального цикла» и блоку дисциплин, обеспечивающих бакалаврскую подготовку. Изучение данной дисциплины базируется на следующих дисциплинах: 2. Математика. 3. Количественные методы анализа данных.
Цель освоения дисциплины
- Информационные технологии для обработки документов в публичном управлении связаны, с одной стороны с обработкой больших данных, с другой стороны, связанны с навыками разработки информационных систем, поэтому целями освоения данной дисциплины является, во-первых, обучение первичной обработке и организации данных (препроцессингу данных, работа с пропущенными данными, выделение необходимых признаков), во-вторых, применение стандартных моделей методов машинного обучения реализованных в различных библиотеках на языке python (кластерный анализа, классификация, тематическое моделирование, рекомендательные системы и нейронные сети), в-третьих, применение методов машинного обучения для разработки информационных систем в области государственного и муниципального управления, в четвертых, формирование навыков аналитика данных.
Планируемые результаты обучения
- Выявляет программные средства питона (Anaconda, Jupyter, Spyder, Visual Studio, PyCharm)
- Выявляет основные библиотеки, используемых в области машинного обучения
- Сравнивает методы оценки моделей и тонкой настройки гипер-параметров в моделях классификации. Объединение моделей для методов ансамблевого обучения.
- Применяет контент-ориентированную модель и модель коллаборативной фильтрации
- Сравнивает способы оценки результатов моделей
- Выявляет признаки из изображений для целей кластреризации и классификации
- Применяет классификации изображений и текстов (нейронные сети)
- Применяет анализ временных рядов
Содержание учебной дисциплины
- Тема 1. Построение информационных систем на основе методов машинного обученияПринципы построения систем компьютерного анализа документов публичного управления на основе методов машинного обучения. Интеллектуальный анализ данных, большие данные, машинное обучение. Методы и задачи интеллектуального анализа данных, машинного обучения и обработки больших данных. Области применения методов и технологий интеллектуального анализа данных, машинного обучения и обработки больших данных.
- Тема 2. Введение в библиотеки NumPy, Panda, SciPy, scikit-learn, matplotlibОбзор возможностей библиотек NumPy, Panda, SciPy, scikit-learn, matplotlib для целей машинного обучения.
- Тема 3. Обзор алгоритмов кластеризации и классификаторов с использованием библиотеки scikit-learn.Обсуждение принципов кластеризации и классификации многомерных данных при помощи библиотеки scikit-learn.
- Тема 4. Принципы построения рекомендательных системОбзор моделей рекомендательных систем: 1. Контент-ориентированная модель. 2. Модель коллаборативной фильтрации
- Тема 5. Построение информационных систем на основе моделей тематического моделирования.Обзор основных тематических моделей: LDA (E-M algorithm). LDA (Gibbs sampling). Обзор реализаций тематических моделей в питоне (Scikit Learn, Gensim, BigARTM)
- Тема 6. Обработка изображений в python.Принципы обработки изображений. Обзор питоновских библиотек для работы с изображениями. Обзор моделей выделения признаков из изображений.
- Тема 7. Введение в нейронные сети.Математическая основа нейронных сетей. Алгоритмы препроцессинга текстовых данных и препроцессинга изображений. Обзор типов нейронных сетей. Обзор библиотек Keras и TensorFlow.
- Тема 8. Анализ временных рядов с помощью python.Математическая основа анализа временных рядов (Экспоненциальное сглаживание, модель Хольта-Винтерса, модели ARIMA, Bayesian dynamic linear model).