2023/2024
Python для анализа данных
Статус:
Дисциплина общефакультетского пула
Кто читает:
Школа лингвистики
Когда читается:
1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
6
Контактные часы:
56
Программа дисциплины
Аннотация
Курс предназначен для студентов, желающих овладеть навыками работы с данными в науке о данных при помощи языка программирования Python. Python – это один из самых популярных языков программирования, который используется во многих отраслях, включая аналитику данных. Рейтинг TIOBE подтверждает, что Python является самым популярным языком программирования на сегодняшний день.
В рамках курса студенты узнают, что такое анализ анализ данных, машинное обучение, научатся делать визуализации и многое другое. Студенты изучат инструменты, созданные специально для работы с данными на Python, такие как pandas, numpy, scikit-learn и другие. Курс также позволит студентам разобраться в различных типах данных и форматах данных, а также научит их практическим навыкам работы с данными в Python.
Основная цель курса – помочь студентам понять, что такое наука о данных и как она применяется на практике. Курс также обучит студентов использовать Python для анализа данных, обработки данных и визуализации данных. Дополнительно, студенты получат знания о различных библиотеках Python и научатся использовать их для решения задач в науке о данных.
Цель освоения дисциплины
- Освоение базовых навыков работы в Excel и Python
- Анализ данных с помощью современных инструментов
- Понимание того, какие инструменты, методы и метрики должны быть использованы в различных прикладных задачах
Планируемые результаты обучения
- Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
- Знает основные структуры данных в питоне: кортежи, списки, множества и словари; умеет реализовывать в коде операции с ними
- Знает основные типы данных в питоне (булев тип, целые числа, числа с плавающей точкой, строки), умеет писать код, выполняющий арифметические операции и базовые операции со строками
- Понимает концепцию циклов, умеет писать код с использованием конструкций for и while
- Знает возможности и ограничения словарей. Умеет применять словари и их методы.
- Знает особенности интерфейса Jupyter Notebook, переменные и базовые объекты в Python.
- Уметь писать код, используя условные конструкции.
- Использует функции и создаёт собственные, различает позиционные и именованные аргументы, возвращает значения разных типов из функций, умеет изменять данные изменяемых типов и создавать и возвращать копии данных изменяемых и неизменяемых типов
Содержание учебной дисциплины
- Устройство Jupyter Notebook, основные типы данных
- Условные конструкции
- Циклы
- Списки и цикл for
- Методы строк и списков
- Множества, словари, кортежи
- Функции
- Регулярные выражения, токенизация текста.
- Морфология, лемматизация, распознавание именованных сущностей
- Работа с табличными и текстовыми файлами. Работа с JSON.
- Данные и их источники. Введение в инструменты.
- Введение в статистику. Базовые манипуляции с данными
- Типы данных. Создание новых переменных
- Генеральная совокупность и выборка. Частотные таблицы и распределения
- Описательные статистики: меры центральной тенденции и разброса
- Z-оценка. Выбросы.
- Корреляция
- Введение в визуализацию данных
- Продвинутая визуализация данных
Элементы контроля
- Контрольные работы по анализу данных
- Домашние задания
- Мини-тесты
- Исследовательский проект