• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Python для сбора и анализа данных

Язык: русский
Кредиты: 3
Контактные часы: 24

Программа дисциплины

Аннотация

Дисциплина Python для сбора и анализа данных имеет целью обучить студентов не только работе в Python, но и основам программирования вообще, поскольку наиболее базовые принципы являются схожими почти во всех языках программирования. При решении ряда задач исследователи часто сталкиваются с необходимостью работать с большими массивами данных. Характер данных может быть очень разным: политологические индексы, посчитанные для разных стран, социально-экономические показатели по регионам России и муниципальным образованиям, тексты законопроектов и инициатив, тексты пользователей в социальных сетях. Для того чтобы эффективно работать с разными типами данных, необходимо знать основы программирования, так как именно навыки программирования позволяют автоматически собирать необходимую информацию за достаточно быстрое время. В качестве языка программирования в данном курсе используется Python. Язык Python на данный момент является очень популярным, в том числе в исследованиях в рамках социальных наук. Дисциплина подразделяется на два блока. Первый блок посвящен основам программирования и включает необходимые для дальнейшей работы в Python темы: переменные и типы данных, списки и кортежи, словари, условные конструкции, циклы и функции. Второй блок посвящен решению прикладных задач в Python и включает темы, связанные со сбором и анализом данных: выгрузка данных с сайтов, парсинг веб-страниц, работа с таблицами, визуализация и разведывательный анализ данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Развитие навыков анализа данных с использованием современных программных средств для проведения исследований.
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь провести анализ взаимосвязей переменных и представить его результаты в виде, доступном для широкой аудитории
  • Уметь провести графический анализ данных
  • Уметь провести описательный анализ данных
  • Уметь провести сбор данных с веб-страниц и представить их в структурированном виде
  • Уметь работать с разными типами файлов и данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Типы данных и переменные.
    Установка и настройка среды разработки (пакет Anaconda). Интерфейс Jupyter Notebook. Установка и подключение библиотек. Синтаксис языка. Работа с данными разных типов: числа, строки, логические значения, списки, словари, множества. Переменные и константы. Функции.
  • Описательный анализ данных.
    Частотный анализ данных. Основы статистики. Меры средней тенденции. Меры разброса. Характеристики распределения значений переменной. Гистограмма. Работа с временными рядами. Подготовка данных для создания сводных таблиц. Группировка и агрегирование данных. Настройка сводных таблиц. Интерпретация значений в сводных таблицах. Представление сводных таблиц.
  • Работа с данными. Типы файлов. Режимы доступа к файлу. Чтение файла.
    Запись данных в файл. Пути к файлам и папкам. Работа с большими таблицами. Объекты Series (последовательность) и DataFrame (таблица). Обработка и проверка данных перед анализом. Представление данных в удобном для анализа виде. Внесение изменений в данные. Объединение таблиц. Библиотека pandas.
  • Графический анализ данных
    Построение различных типов графиков. Настройка и редактирование графиков. Библиотека Mathplotlib. Сохранение графиков в разных форматах.
  • Анализ взаимосвязей переменных.
    Таблица сопряжённости. Корреляционный анализ данных. Оценка силы и направления взаимосвязи. Графический анализ взаимосвязей.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Самостоятельная работа
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * Домашнее задание + 0.5 * Самостоятельная работа
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • Северенс Ч. - Введение в программирование на Python - Национальный Открытый Университет "ИНТУИТ" - 2016 - 231с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100703