Бакалавриат
2025/2026





Python для анализа данных
Статус:
Курс обязательный (Бизнес-информатика)
Где читается:
Санкт-Петербургская школа экономики и менеджмента
Когда читается:
2-й курс, 2, 3 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Кива Павел Сергеевич
Язык:
русский
Кредиты:
4
Контактные часы:
60
Программа дисциплины
Аннотация
Курс «Python для анализа данных» предоставляет комплексное практическое введение в использование языка Python для решения реальных аналитических задач. Программа курса охватывает полный цикл работы с данными: от их сбора и очистки до анализа, визуализации и построения прогнозных моделей. Особое внимание уделяется освоению ключевых библиотек Python для Data Science: Pandas для обработки данных, NumPy для математических вычислений, Matplotlib и Seaborn для визуализации, Scikit-learn для машинного обучения. Итогом обучения является защита собственного аналитического проекта, в котором студенты применяют полученные навыки на практике. Курс не содержит отдельных лекций; теоретический материал интегрирован в практические задания и проектную работу.
Цель освоения дисциплины
- Сформировать фундаментальные навыки программирования на Python: освоить базовый синтаксис, структуры данных, функции и работу с файлами, необходимые для автоматизации аналитических процессов.
- Освоить ключевые инструменты анализа данных: научиться применять библиотеки Pandas и NumPy для эффективной обработки, очистки и разведочного анализа данных (EDA).
- Научиться визуализировать данные и результаты анализа: использовать библиотеки Matplotlib и Seaborn для создания наглядных статических и интерактивных графиков и дашбордов.
- Приобрести компетенции в области прикладной статистики и машинного обучения: понимать и применять на практике методы описательной статистики, проверки гипотез, линейной регрессии и кластеризации для извлечения инсайтов и построения прогнозов.
- Выполнить полный цикл аналитического проекта: получить опыт самостоятельного проведения анализа — от постановки задачи и работы с данными до интерпретации результатов и презентации выводов.
Планируемые результаты обучения
- Студент способен установить и настроить рабочее окружение для анализа данных.
- Студент способен найти данные для своего исследования в открытых источниках.
- Студент способен применять базовые структуры данных и синтаксис Python для обработки информации.
- Студент способен формулировать статистические гипотезы, интерпретировать результаты A/B-тестов, знает способы проверки гипотез.
- Студент способен структурировать код с помощью функций и загружать данные из файлов.
- Студент способен выполнять операции с данными с использованием библиотеки NumPy
- Студент способен проводить разведочный анализ данных (EDA), включая обработку пропусков и выбросов.
- Студент способен выполнять операции с данными с использованием библиотеки Pandas (фильтрация, группировка, агрегация, объединение таблиц).
- Студент способен создавать статические и интерактивные визуализации с помощью Matplotlib и Seaborn.
- Студент способен подключаться к базам данных с помощью Python, выполнять базовые SQL-запросы для извлечения данных.
- Студент способен строить и оценивать простые модели машинного обучения для задач регрессии и кластеризации.
- Студент способен презентовать результаты анализа данных и вести научную дискуссию со слушателями.
Содержание учебной дисциплины
- Введение в профессию аналитика данных
- Правовые основы и источники данных
- Базовый синтаксис Python
- Функции и работа с файлами в Python
- Базовые основы статистики
- Библиотека NumPy
- Разведочный анализ данных (EDA) с Pandas
- Продвинутый Pandas для анализа данных
- Визуализация данных
- Базы данных и SQL операции с использованием Python
- Введение в машинное обучение для анализа данных
- Защита итоговых проектов
Элементы контроля
- ПроектИндивидуальный проект является частью академических требований курса, в рамках которого студенты работают с обширными базами данных для получения навыка проведения полного цикла анализа по материалам курса.
- Домашняя работаДомашнее задание по материалах практических занятий для самостоятельного выполнения.
- Задачи на семинарахЗадачи, выполняемые в рамках каждого практического занятия по материалам курса.
Промежуточная аттестация
- 2025/2026 3rd module0.25 * Домашняя работа + 0.25 * Задачи на семинарах + 0.5 * Проект
Список литературы
Рекомендуемая основная литература
- Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
- SQL для анализа данных: Пер. с англ. - 978-5-9775-0958-9 - Танимура К. - 2024 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/bookshelf/396435 - 396435 - iBOOKS
- Введение в машинное обучение с помощью Python : руководство для специалистов по работе с данными, Мюллер, А., 2018
Рекомендуемая дополнительная литература
- Изучаем программирование на Python, Бэрри, П., 2017