• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Python для анализа данных

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 4 модуль

Программа дисциплины

Аннотация

На сегодняшний день Python является стандартом индустрии для анализа данных. По окончании этого курса, студенты получат в свое распоряжение набор аналитических инструментов, которые им пригодятся как в академии, так и при работе в частном или государственном секторе. Целью этого курса является развитие навыков программирования и создание крепкой практической базы для анализа и презентации данных. С использованием онлайн-курса "Python для извлечения и обработки данных" (URL: https://www.coursera.org/learn/python-kak-inostrannyj).
Цель освоения дисциплины

Цель освоения дисциплины

  • Развитие и закрепление навыков программирования на языке Python.
  • Формирование и развитие навыков работы со специализированными библиотеками для обработки, визуализации и анализа данных (pandas, numpy, plotly, matplotlib, seaborn).
  • Развитие навыков работы с данными: обработка, визуализация, разведывательный анализ.
  • Знакомство с задачами линейной и логистической регрессии
  • Развитие навыков постановки исследовательской задачи и тестирования гипотез с помощью количественных методов
Планируемые результаты обучения

Планируемые результаты обучения

  • Загружает данные в pandas и работает с ними (фильтрация, агрегация, заполнение пропущенных значений)
  • Подсчитывает описательные статистики, оценивает распределения, интерпретирует корреляции
  • Проводит разведывательный анализ данных
  • Уверенно пользуется языком Python для решения аналитических задач
  • Выбирает корректные графики для визуализации данных
  • Выбирает правильный тип визуализации для решения конкретной задачи
  • Настраивает внешний вид графиков в библиотеках Python для визуализации
  • Проводит разведывательный анализ данных с помощью визуализаций
  • Определяет тип задачи регрессии, умеет составлять уравнение регрессии
  • Разбирается в выборе линейной модели для обучения, используя библиотеки Python
  • Умеет подсчитывать и интерпретировать метрики качества для задачи регрессии
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы программирования в Python
    Основные типы и структуры данных. Условные операторы и циклы. Решение алгоритмических задач.
  • Введение в анализ данных на Python
    Обзор задач, для решения которых используется Python. Источники данных и их типы. Линейная алгербра и математическая статистика для анализа данных и машинного обучения. Статистические и математические операции в numpy. Pandas для работы с табличными данными. Разведывательный анализ данных.
  • Визуализация данных
    Цели визуализации данных: разведывательный анализ, выбор алгоритмов, презентация данных и результатов. Виды графиков, их корректное использование и интерпретация. Принципы хорошей визуализации, основные ошибки при вузализации данных. Основы визуализации в matplotlib. Оформление и кастомизация графиков.
  • Линейная/логистическая регрессия
    Постановка задачи регрессии, уравнение регрессии, одномерная и множественная регрессия.
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа (Питон)
    Контрольная может проводиться онлайн в письменной форме с использованием асинхронного прокторинга. Экзамен проводится на платформе Онлайн-образование в НИУ ВШЭ (https://online.hse.ru/), прокторинг на платформе Экзамус (https://hse.student.examus.net).
  • неблокирующий Мини-опросы на лекциях (среднее всех)
  • неблокирующий Домашнее задание (среднее всех)
  • неблокирующий Письменный экзамен (анализ данных)
    Экзамен может проводиться онлайн в письменной форме с использованием прокторинга. Экзамен проводится на платформе Онлайн-образование в НИУ ВШЭ (https://online.hse.ru/), прокторинг на платформе Экзамус (https://hse.student.examus.net).
  • неблокирующий Оценка за онлайн-курс
    Онлайн-курс "Python для извлечения и обработки данных" (URL: https://www.coursera.org/learn/python-kak-inostrannyj).
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.4 * Домашнее задание (среднее всех) + 0.2 * Контрольная работа (Питон) + 0.1 * Мини-опросы на лекциях (среднее всех) + 0.1 * Оценка за онлайн-курс + 0.2 * Письменный экзамен (анализ данных)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Muller, A. C., & Guido, S. (2017). Introduction to machine learning with Python: a guide for data scientists. O’Reilly Media. (HSE access: http://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4698164)

Рекомендуемая дополнительная литература

  • Mirkin, B. Core concepts in data analysis: summarization, correlation and visualization. – Springer Science & Business Media, 2011. – 388 pp.
  • Miroslav Kubat. An Introduction to Machine Learning. Springer, 2015 (296 pages) ISBN: 9783319200095: — Текст электронны // ЭБС books24x7 — https://library.books24x7.com/toc.aspx?bookid=117295
  • Мастицкий С.Э. - Визуализация данных с помощью ggplot2 - Издательство "ДМК Пресс" - 2017 - 222с. - ISBN: 978-5-97060-470-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/107895
  • Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2019. — 343 с. — (Среднее профессиональное образование). - Режим доступа: http://znanium.com/catalog/product/970143
  • Северенс Ч. - Введение в программирование на Python - Национальный Открытый Университет "ИНТУИТ" - 2016 - 231с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100703