• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Research Seminar "Data analysis in Python"

2019/2020
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Elective course
When:
1 year, 1-3 module

Instructor

Программа дисциплины

Аннотация

В результате освоения дисциплины «Анализ данных в Python» студенты изучат современные методы анализа данных для проведения исследований и овладеют практическими навыками использования современных программных средств для работы с данными. Студенты смогут осуществить предварительную подготовку данных для последующей работы с ними, выбрать подходящий метод анализа в зависимости от типа данных и исследовательской задачи, провести анализ данных и интерпретировать полученные результаты, представлять их в доступном для широкой аудитории виде.
Цель освоения дисциплины

Цель освоения дисциплины

  • Развитие навыков анализа данных с использованием современных программных средств для проведения исследований.
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь работать с разными типами файлов и данных
  • Уметь провести описательный анализ данных
  • Уметь провести графический анализ данных
  • Уметь провести анализ взаимосвязей переменных и представить его результаты в виде, доступном для широкой аудитории
  • Уметь провести сбор данных с веб-страниц и представить их в структурированном виде
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в Python. Типы данных и переменные.
    Установка и настройка среды разработки (пакет Anaconda). Интерфейс Jupyter Notebook. Установка и подключение библиотек. Синтаксис языка. Работа с данными разных типов: числа, строки, логические значения, списки, словари, множества. Переменные и константы. Функции.
  • Работа с данными
    Типы файлов. Режимы доступа к файлу. Чтение файла. Запись данных в файл. Пути к файлам и папкам. Работа с большими таблицами. Объекты Series (последовательность) и DataFrame (таблица). Обработка и проверка данных перед анализом. Представление данных в удобном для анализа виде. Внесение изменений в данные. Объединение таблиц. Библиотека pandas.
  • Описательный анализ данных
    Частотный анализ данных. Основы статистики. Меры средней тенденции. Меры разброса. Характеристики распределения значений переменной. Гистограмма. Работа с временными рядами. Подготовка данных для создания сводных таблиц. Группировка и агрегирование данных. Настройка сводных таблиц. Интерпретация значений в сводных таблицах. Представление сводных таблиц.
  • Графический анализ данных
    Построение различных типов графиков. Настройка и редактирование графиков. Библиотека Mathplotlib. Сохранение графиков в разных форматах.
  • Анализ взаимосвязей переменных
    Таблица сопряжённости. Корреляционный анализ данных. Оценка силы и направления взаимосвязи. Графический анализ взаимосвязей.
  • Сбор данных в сети Интернет
    Извлечение данных из веб-страниц. Библиотека beautifulsoup.
Элементы контроля

Элементы контроля

  • неблокирующий Аудиторная работа (АР)
    Задания, выполняемые на компьютере во время семинаров.
  • неблокирующий Контрольная работа (КР)
  • неблокирующий Домашнее задание (ДЗ)
  • неблокирующий Экзамен (Э)
    Экзамен проводится в письменной форме. Экзамен проводится на платформе MS Teams (https://www.microsoft.com/ru-ru/microsoft-365/microsoft-teams/group-chat-software). К экзамену необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, установленное приложение MS Teams. Для участия в экзамене студент обязан явиться на экзамен согласно точному расписанию и быть готовым отвечать на вопросы преподавателя с включённым микрофоном и камерой. Во время экзамена студентам запрещено пользоваться подсказками посторонних людей. Во время экзамена студентам разрешено задавать преподавателю уточняющие вопросы, если не понятно задание. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 10 минут. Долговременным нарушением связи во время экзамена считается нарушение длительностью более 10 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.2 * Аудиторная работа (АР) + 0.2 * Домашнее задание (ДЗ) + 0.3 * Контрольная работа (КР) + 0.3 * Экзамен (Э)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Изучаем Python, Лутц, М., 2014

Рекомендуемая дополнительная литература

  • Python и анализ данных, Маккинли, У., 2015