• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Python для анализа данных

Статус: Курс обязательный (Бизнес-информатика)
Когда читается: 2-й курс, 2, 3 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Кива Павел Сергеевич
Язык: русский
Кредиты: 4
Контактные часы: 60

Программа дисциплины

Аннотация

Курс «Python для анализа данных» предоставляет комплексное практическое введение в использование языка Python для решения реальных аналитических задач. Программа курса охватывает полный цикл работы с данными: от их сбора и очистки до анализа, визуализации и построения прогнозных моделей. Особое внимание уделяется освоению ключевых библиотек Python для Data Science: Pandas для обработки данных, NumPy для математических вычислений, Matplotlib и Seaborn для визуализации, Scikit-learn для машинного обучения. Итогом обучения является защита собственного аналитического проекта, в котором студенты применяют полученные навыки на практике. Курс не содержит отдельных лекций; теоретический материал интегрирован в практические задания и проектную работу.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать фундаментальные навыки программирования на Python: освоить базовый синтаксис, структуры данных, функции и работу с файлами, необходимые для автоматизации аналитических процессов.
  • Освоить ключевые инструменты анализа данных: научиться применять библиотеки Pandas и NumPy для эффективной обработки, очистки и разведочного анализа данных (EDA).
  • Научиться визуализировать данные и результаты анализа: использовать библиотеки Matplotlib и Seaborn для создания наглядных статических и интерактивных графиков и дашбордов.
  • Приобрести компетенции в области прикладной статистики и машинного обучения: понимать и применять на практике методы описательной статистики, проверки гипотез, линейной регрессии и кластеризации для извлечения инсайтов и построения прогнозов.
  • Выполнить полный цикл аналитического проекта: получить опыт самостоятельного проведения анализа — от постановки задачи и работы с данными до интерпретации результатов и презентации выводов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент способен установить и настроить рабочее окружение для анализа данных.
  • Студент способен найти данные для своего исследования в открытых источниках.
  • Студент способен применять базовые структуры данных и синтаксис Python для обработки информации.
  • Студент способен формулировать статистические гипотезы, интерпретировать результаты A/B-тестов, знает способы проверки гипотез.
  • Студент способен структурировать код с помощью функций и загружать данные из файлов.
  • Студент способен выполнять операции с данными с использованием библиотеки NumPy
  • Студент способен проводить разведочный анализ данных (EDA), включая обработку пропусков и выбросов.
  • Студент способен выполнять операции с данными с использованием библиотеки Pandas (фильтрация, группировка, агрегация, объединение таблиц).
  • Студент способен создавать статические и интерактивные визуализации с помощью Matplotlib и Seaborn.
  • Студент способен подключаться к базам данных с помощью Python, выполнять базовые SQL-запросы для извлечения данных.
  • Студент способен строить и оценивать простые модели машинного обучения для задач регрессии и кластеризации.
  • Студент способен презентовать результаты анализа данных и вести научную дискуссию со слушателями.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в профессию аналитика данных
  • Правовые основы и источники данных
  • Базовый синтаксис Python
  • Функции и работа с файлами в Python
  • Базовые основы статистики
  • Библиотека NumPy
  • Разведочный анализ данных (EDA) с Pandas
  • Продвинутый Pandas для анализа данных
  • Визуализация данных
  • Базы данных и SQL операции с использованием Python
  • Введение в машинное обучение для анализа данных
  • Защита итоговых проектов
Элементы контроля

Элементы контроля

  • неблокирующий Проект
    Индивидуальный проект является частью академических требований курса, в рамках которого студенты работают с обширными базами данных для получения навыка проведения полного цикла анализа по материалам курса.
  • неблокирующий Домашняя работа
    Домашнее задание по материалах практических занятий для самостоятельного выполнения.
  • неблокирующий Задачи на семинарах
    Задачи, выполняемые в рамках каждого практического занятия по материалам курса.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 3rd module
    0.25 * Домашняя работа + 0.25 * Задачи на семинарах + 0.5 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
  • SQL для анализа данных: Пер. с англ. - 978-5-9775-0958-9 - Танимура К. - 2024 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/bookshelf/396435 - 396435 - iBOOKS
  • Введение в машинное обучение с помощью Python : руководство для специалистов по работе с данными, Мюллер, А., 2018

Рекомендуемая дополнительная литература

  • Изучаем программирование на Python, Бэрри, П., 2017

Авторы

  • Седов Владислав Васильевич
  • Кива Павел Сергеевич