• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2022/2023

Введение в анализ данных

Статус: Курс обязательный (Мировая экономика)
Направление: 38.03.01. Экономика
Когда читается: 2-й курс, 4 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 50
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Карпов Максим Евгеньевич, Латыпов Инсан-Александр Искандерович, Сусла Диана Михайловна
Язык: русский
Кредиты: 3
Контактные часы: 24

Программа дисциплины

Аннотация

Курс "Анализ данных на Python"нацелен на изучение языка программирования Python и получение базовых знаний и навыков для обработки, визуализации и статистического анализа данных, а также дальнейшего прохождения более специализированных курсов в этой области (например, машинного обучения). Первая часть дисциплины отведена на изучение основ языка Python, по итогам которой слушатели узнают о типах и структурах данных, научатся решать алгоритмические задачи и освоят такие базовые понятия программирования, как: условные операторы, функции, рекурсии и циклы. В рамках курса будут пройдены основы различных парадигм программирования: процедурное, функциональное и объектно-ориентированное программирование. Вторая часть курса посвящена освоению теоретической базы и необходимых практических навыков для анализа данных. Слушатели научатся решать задачи по парсингу, препроцессингу и визуализации данных с помощью стандартных и внешних библиотек Python.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с основами программирования на языке Python
  • Получение навыков обработки и статистического анализа данных с применением библиотек языка Python
  • Ознакомление с теоретическими основами и основными методами статистического анализа
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть базовыми понятиями теории вероятностей и математической статистики для работы с данными
  • Знать основные структуры данных и парадигмы программирования
  • Знать синтаксис и семантику основных конструкций языка программирования Python
  • Уметь собирать, предобрабатывать и визуализировать данные и выводить их описательные статистики
  • Уметь формулировать аналитическую задачу и реализовывать ее выполнение на Python
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в язык программирования. Условные операторы. Вещественные числа.
  • Кортежи, цикл for, списки.
  • Функции и рекурсия.
  • Множества и словари. Функциональное программирование.
  • Объектно-ориентированное программирование.
  • Обработка данных.
  • Визуализация данных.
  • Парсинг данных
  • Линейная регрессия. Метрики для задачи регрессии. Разделение выборки на обучающую и тестовую. Понятие переобучения. Кросс-валидация.
  • Логистическая регрессия. Метрики для задачи классификации.
  • Решающее дерево. Случайный лес. Подбор параметров по сетке.
Элементы контроля

Элементы контроля

  • неблокирующий Онлайн-курс
  • неблокирующий Домашние задания
  • неблокирующий Мини-тесты
  • неблокирующий Проект
  • неблокирующий Контрольная работа
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.1 * Онлайн-курс + 0.3 * Домашние задания + 0.2 * Контрольная работа + 0.2 * Мини-тесты + 0.2 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.
  • McKinney, W. (2012). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=495822
  • Rogers, S., & Girolami, M. (2016). A First Course in Machine Learning (Vol. 2nd ed). Milton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1399490
  • Кремер, Н. Ш.  Математическая статистика : учебник и практикум для академического бакалавриата / Н. Ш. Кремер. — Москва : Издательство Юрайт, 2019. — 259 с. — (Бакалавр. Академический курс). — ISBN 978-5-534-01654-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/433671 (дата обращения: 28.08.2023).
  • Энатская, Н. Ю.  Теория вероятностей и математическая статистика : учебник и практикум для среднего профессионального образования / Н. Ю. Энатская, Е. Р. Хакимуллин. — Москва : Издательство Юрайт, 2019. — 399 с. — (Профессиональное образование). — ISBN 978-5-534-11917-6. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446435 (дата обращения: 28.08.2023).

Рекомендуемая дополнительная литература

  • Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081
  • Митчелл, Р. Скрапинг веб-сайтов с помощю Python : руководство / Р. Митчелл , перевод с английского А. В. Груздев. — Москва : ДМК Пресс, 2016. — 280 с. — ISBN 978-5-97060-223-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100903 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.