Бакалавриат
2020/2021
Python для сбора и анализа данных
Статус:
Курс обязательный (Финансовый менеджмент)
Направление:
38.03.01. Экономика
Когда читается:
3-й курс, 4 модуль
Формат изучения:
без онлайн-курса
Язык:
русский
Кредиты:
3
Контактные часы:
24
Программа дисциплины
Аннотация
Дисциплина Python для сбора и анализа данных имеет целью обучить студентов не только работе в Python, но и основам программирования вообще, поскольку наиболее базовые принципы являются схожими почти во всех языках программирования. При решении ряда задач исследователи часто сталкиваются с необходимостью работать с большими массивами данных. Характер данных может быть очень разным: политологические индексы, посчитанные для разных стран, социально-экономические показатели по регионам России и муниципальным образованиям, тексты законопроектов и инициатив, тексты пользователей в социальных сетях. Для того чтобы эффективно работать с разными типами данных, необходимо знать основы программирования, так как именно навыки программирования позволяют автоматически собирать необходимую информацию за достаточно быстрое время. В качестве языка программирования в данном курсе используется Python. Язык Python на данный момент является очень популярным, в том числе в исследованиях в рамках социальных наук. Дисциплина подразделяется на два блока. Первый блок посвящен основам программирования и включает необходимые для дальнейшей работы в Python темы: переменные и типы данных, списки и кортежи, словари, условные конструкции, циклы и функции. Второй блок посвящен решению прикладных задач в Python и включает темы, связанные со сбором и анализом данных: выгрузка данных с сайтов, парсинг веб-страниц, работа с таблицами, визуализация и разведывательный анализ данных.
Цель освоения дисциплины
- Развитие навыков анализа данных с использованием современных программных средств для проведения исследований.
Планируемые результаты обучения
- Уметь провести анализ взаимосвязей переменных и представить его результаты в виде, доступном для широкой аудитории
- Уметь провести графический анализ данных
- Уметь провести описательный анализ данных
- Уметь провести сбор данных с веб-страниц и представить их в структурированном виде
- Уметь работать с разными типами файлов и данных
Содержание учебной дисциплины
- Типы данных и переменные.Установка и настройка среды разработки (пакет Anaconda). Интерфейс Jupyter Notebook. Установка и подключение библиотек. Синтаксис языка. Работа с данными разных типов: числа, строки, логические значения, списки, словари, множества. Переменные и константы. Функции.
- Описательный анализ данных.Частотный анализ данных. Основы статистики. Меры средней тенденции. Меры разброса. Характеристики распределения значений переменной. Гистограмма. Работа с временными рядами. Подготовка данных для создания сводных таблиц. Группировка и агрегирование данных. Настройка сводных таблиц. Интерпретация значений в сводных таблицах. Представление сводных таблиц.
- Работа с данными. Типы файлов. Режимы доступа к файлу. Чтение файла.Запись данных в файл. Пути к файлам и папкам. Работа с большими таблицами. Объекты Series (последовательность) и DataFrame (таблица). Обработка и проверка данных перед анализом. Представление данных в удобном для анализа виде. Внесение изменений в данные. Объединение таблиц. Библиотека pandas.
- Графический анализ данныхПостроение различных типов графиков. Настройка и редактирование графиков. Библиотека Mathplotlib. Сохранение графиков в разных форматах.
- Анализ взаимосвязей переменных.Таблица сопряжённости. Корреляционный анализ данных. Оценка силы и направления взаимосвязи. Графический анализ взаимосвязей.