• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Introduction to Data Science

2019/2020
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
1 year, 4 module

Instructors


Akhmatnurov, Marat


Кутынина Екатерина Андреевна

Программа дисциплины

Аннотация

Дисциплина «Введение в Data Science» знакомит студентов с основными концепциями и методами анализа данных и машинного обучения. Студенты также научатся программировать на языке Python, познакомятся с базовыми приёмами извлечения и обработки данных из сети интернет и различных типов файлов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ставить измеримые цели, считать основные метрики
  • Оценивать эффективность изменений
  • Понимать, как делать прогнозы по данным
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать базовый синтаксис python, не теряться в коде.
  • Знать основные понятия и классы задач машинного обучения.
  • Уметь построить простые визуализации в python.
  • Уметь посчитать основные описательные статистики.
  • Понимать что такое регрессия, классификация, знать какие алгоритмы для решения этих задач существуют.
  • Уметь считать основные метрики.
  • Уметь построить в python простую модель и оценить её качество.
  • Понимать что такое гипотезы. Уметь их проверять. Понимать что такое дизайн A/B теста.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Онлайн-модуль
    Серия из базовых онлайн-курсов для знакомства с python на Datacamp.
  • Введение в область Data Science.
    Понятия Data Science, Machine Learning, Deep Learning, Big Data. Классы задач машинного обучения.
  • Описательные статистики и визуализация данных.
    Понятие описательных статистик. Минимум, максимум, среднее, стандартное отклонение, медиана, процентили. Основные виды графиков.
  • Регрессия. Метрики регрессии. Линейная регрессия.
    Постановка задачи регрессии. Метрики регрессии: MSE, MAE, MAPE, R2
  • Классификации. Метрики классификации.
    Постановка задачи классификации. Метрики классификации: доля правильных ответов, точность, полнота. KNN, деревья.
  • А/В-тестирование.
    Понятие гипотезы, ошибок первого и второго рода. Тестирование гипотез.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Домашние работы представляют из себя небольшие задания по машинному обучению, направленные на отработку навыков написания кода. Даются по текущей теме после каждого семинара.
  • неблокирующий Самостоятельная работа
    В самостоятельных работах студент должен продемонстрировать понимание основных теоретических моментов, быть способным продемонстрировать знание теоретического материала и уметь применять знания для решения практических задач.
  • неблокирующий Оценка онлайн курса
    5 курсов на платформе DataCamp: • Introduction to Python [https://www.datacamp.com/courses/intro-to-python-for-data-science]; • Intermediate Python [https://www.datacamp.com/courses/intermediate-python-for-data-science]; • pandas Foundations [https://www.datacamp.com/courses/pandas-foundations]; • Manipulating DataFrames with pandas [https://www.datacamp.com/courses/manipulating-dataframes-with-pandas] (chapters 1, 4); • Introduction to Data Visualization in Python [https://www.datacamp.com/courses/introduction-to-data-visualization-with-python].
  • неблокирующий Контрольная работа
    В контрольной работе студент должен продемонстрировать навыки оценивания простейших моделей в python.
  • неблокирующий Экзамен (письменный)
    Экзамен проводится в письменной форме. Экзамен проводится на платформе Zoom (https://zoom.us/) и состоит из 2 частей: тестирование на платформе Онлайн-образование в НИУ ВШЭ (https://online.hse.ru/) и загрузка решений задач на платформу Яндекс.Контест (https://contest.yandex.ru/). Преподаватели оставляют за собой право при проверке экзамена устно по видеосвязи опросить студента по экзаменационной работе. К экзамену необходимо подключиться за 10 минут до начала и прочитать инструкции по выполнению экзаменационной работы. Экзамен считается сданным и завершенным, если выполнены инструкции в экзаменационной работе. Инструкции по выполнению работы доступны на платформе https://online.hse.ru/ накануне экзамена. Во время экзамена студентам запрещено: выключать видеокамеру; покидать место выполнения экзаменационного задания; пользоваться умными гаджетами; привлекать посторонних лиц для помощи в проведении экзамена. Во время экзамена студентам разрешено: использовать личные конспекты, материалы курсы, выложенные на https://github.com/FUlyankin/Intro_to_DS. Кратковременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами https://online.hse.ru/ и https://contest.yandex.ru/ не более 15 минут и потеря сетевой связи студента с Zoom-конференцией не более 1 минуты. Долговременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами https://online.hse.ru/ и https://contest.yandex.ru/ более 15 минут и потеря сетевой связи студента с Zoom-конференцией более 1 минуты. При долговременном нарушении связи студент не может продолжить участие в экзамене. Пересдача предполагает другой вариант контрольной, с усложнением заданий, в присутствии преподавателей и ассистентов курса с демонстрацией экрана в Zoom. Дата пересдачи назначается по согласованию с учебным офисом.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    Накопленная оценка считается по формуле: Накоп=0.1⋅DC+0.2⋅СР+0.2⋅КР+0.5⋅ДЗ Итоговая оценка ставится по формуле: Оценка=max(0.3⋅ЭКЗ+0.7⋅Накоп; 0.5⋅ЭКЗ+0.5⋅Накоп).
Список литературы

Список литературы

Рекомендуемая основная литература

  • Rogers, S., & Girolami, M. (2016). A First Course in Machine Learning (Vol. 2nd ed). Milton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1399490