• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Python для анализа данных

Статус: Дисциплина общефакультетского пула
Когда читается: 1, 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 6
Контактные часы: 56

Программа дисциплины

Аннотация

Курс предназначен для студентов, желающих овладеть навыками работы с данными в науке о данных при помощи языка программирования Python. Python – это один из самых популярных языков программирования, который используется во многих отраслях, включая аналитику данных. Рейтинг TIOBE подтверждает, что Python является самым популярным языком программирования на сегодняшний день. В рамках курса студенты узнают, что такое анализ анализ данных, машинное обучение, научатся делать визуализации и многое другое. Студенты изучат инструменты, созданные специально для работы с данными на Python, такие как pandas, numpy, scikit-learn и другие. Курс также позволит студентам разобраться в различных типах данных и форматах данных, а также научит их практическим навыкам работы с данными в Python. Основная цель курса – помочь студентам понять, что такое наука о данных и как она применяется на практике. Курс также обучит студентов использовать Python для анализа данных, обработки данных и визуализации данных. Дополнительно, студенты получат знания о различных библиотеках Python и научатся использовать их для решения задач в науке о данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение базовых навыков работы в Excel и Python
  • Анализ данных с помощью современных инструментов
  • Понимание того, какие инструменты, методы и метрики должны быть использованы в различных прикладных задачах
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
  • Знает основные структуры данных в питоне: кортежи, списки, множества и словари; умеет реализовывать в коде операции с ними
  • Знает основные типы данных в питоне (булев тип, целые числа, числа с плавающей точкой, строки), умеет писать код, выполняющий арифметические операции и базовые операции со строками
  • Понимает концепцию циклов, умеет писать код с использованием конструкций for и while
  • Знает возможности и ограничения словарей. Умеет применять словари и их методы.
  • Знает особенности интерфейса Jupyter Notebook, переменные и базовые объекты в Python.
  • Уметь писать код, используя условные конструкции.
  • Использует функции и создаёт собственные, различает позиционные и именованные аргументы, возвращает значения разных типов из функций, умеет изменять данные изменяемых типов и создавать и возвращать копии данных изменяемых и неизменяемых типов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Устройство Jupyter Notebook, основные типы данных
  • Условные конструкции
  • Циклы
  • Списки и цикл for
  • Методы строк и списков
  • Множества, словари, кортежи
  • Функции
  • Регулярные выражения, токенизация текста.
  • Морфология, лемматизация, распознавание именованных сущностей
  • Работа с табличными и текстовыми файлами. Работа с JSON.
  • Данные и их источники. Введение в инструменты.
  • Введение в статистику. Базовые манипуляции с данными
  • Типы данных. Создание новых переменных
  • Генеральная совокупность и выборка. Частотные таблицы и распределения
  • Описательные статистики: меры центральной тенденции и разброса
  • Z-оценка. Выбросы.
  • Корреляция
  • Введение в визуализацию данных
  • Продвинутая визуализация данных
Элементы контроля

Элементы контроля

  • неблокирующий Контрольные работы по анализу данных
  • неблокирующий Домашние задания
  • неблокирующий Мини-тесты
  • неблокирующий Исследовательский проект
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 2nd module
    0.3 * Домашние задания + 0.2 * Исследовательский проект + 0.15 * Контрольные работы по анализу данных + 0.15 * Контрольные работы по анализу данных + 0.2 * Мини-тесты
Список литературы

Список литературы

Рекомендуемая основная литература

  • Elementary Statistics : A Step by Step Approach, 684 p., Bluman, A. G., 1995

Рекомендуемая дополнительная литература

  • Статистика и котики, Савельев, В. В., 2018