Бакалавриат
2019/2020
Технологии анализа больших данных
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Управление и аналитика в государственном секторе/ Государственное и муниципальное управление)
Направление:
38.03.04. Государственное и муниципальное управление
Кто читает:
Департамент государственного администрирования
Где читается:
Санкт-Петербургская школа социальных наук
Когда читается:
2-й курс, 3 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Силаева Светлана Анатольевна
Язык:
русский
Кредиты:
5
Контактные часы:
36
Программа дисциплины
Аннотация
Настоящая дисциплина относится к профессиональному циклу дисциплин и блоку дисциплин, обеспечивающих базовую подготовку бакалавра для направления подготовки 38.03.04 «Государственное и муниципальное управление». Изучение данной дисциплины базируется на знаниях, полученных при изучении следующих дисциплин: • Математика • Количественные методы анализа данных Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: • Регулирование и анализ рынка труда • Экономическая и социальная статистика Изучение дисциплины проводится в ходе лекционных и семинарских занятий, а также самостоятельной работы с использованием онлайн-курса.
Цель освоения дисциплины
- Целями курса «Технологии анализа больших данных» является формирование у студентов: - системных представлений о технологиях обработки больших данных; - практических навыков обработки и анализа больших массивов информации.
Планируемые результаты обучения
- Применяет основные понятия и основные алгоритмические конструкции Python. Умеет работать со списками, словарями, функциями.
- Применяет основные объекты Pandas. Умеет группировать, индексировать и извлекать данные по заданным условиям
- Применяет возможности модулей NamPy и matplotlib. Умеет с их помощью анализировать и визуализировать данные.
- Применяет основы моделирования с помощью библиотек Python. Умеет строить модели регрессии и выполнять классификацию объектов.
- Умеет создавать web - запросы с помощью библиотеки requests
Содержание учебной дисциплины
- Тема 1. Введение в анализ больших данныхПонятие больших данных. Основы синтаксиса Python. Объекты Python. Типы данных. Манипуляции с типами. Бинарные операторы и операторы сравнения. Основные алгоритмические конструкции. Регулярные выражения. Добавление комментариев.
- Тема 2. Работа с библиотекой PandasОписание библиотеки Pandas. Основные объекты: Series, DataFrame, Panel. Доступ к данным в структурах Pandas. Чтение и запись данных из внешних источников в форматах (csv, xlsx, json). Работа со структурами: удаление, объединение, расширение, группировка. Анализ и визуализация данных в Pandas.
- Тема 3 Анализ данных с NamPy и matplotlibУниверсальные функции NumPy. Статистическая обработка данных в NumPy. Обработка отсутствующих значений. Написание скриптов. Визуализация данных в matplotlib. Сохранение графиков в файле. Визуализация географических данных.
- Тема 4. Моделирование в PythonВозможности библиотеки Scikit-Learn. Типы моделей. Модели классификации. Бинарная и многоклассовая классификация. Настройка параметров классификации. Парные и множественные регрессионные модели. Этапы построения. Интерпретация результатов. Логистическая регрессия.
- Тема 5. Парсинг сайтов и обработка web - запросов.Формирование web - запросов. Получение информации с внешних сервисов. Библиотека requests.
Элементы контроля
- Индивидуальные задания на семинаре
- Домашние задания
- Оценка за онлайн курс
- ЭкзаменЭкзамен проведён в 3 модуле 2020 г.