• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Введение в Data Science

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 38.04.02. Менеджмент
Когда читается: 1-й курс, 3 модуль
Формат изучения: с онлайн-курсом
Преподаватели: Велликок Анна Павловна
Прогр. обучения: Экономика впечатлений: менеджмент в индустрии гостеприимства и туризме
Язык: русский
Кредиты: 4
Контактные часы: 16

Программа дисциплины

Аннотация

Программа предназначена для студентов первого года обучения в магистратуре по направлению 38.04.02 «Менеджмент» (программа «Экономика впечатлений: менеджмент в индустрии гостеприимства и туризме»). Дисциплина «Введение в Data Science» знакомит студентов с основными концепциями и методами анализа данных и машинного обучения. Студенты также научатся программировать на языке Python, познакомятся с базовыми приёмами извлечения и обработки данных из сети интернет и различных типов файлов. С использованием онлайн-курса "Python для извлечения и обработки данных" (URL: https://openedu.ru/course/hse/PYTHON/).
Цель освоения дисциплины

Цель освоения дисциплины

  • Обучить студентов навыкам программирования на языках Python
  • Обучить студентов базовым приёмам извлечения данных из сети интернет и различных типов файлов, и их обработки, необходимым для дальнейшего обучения и в работе по специальности.
  • Познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.
Планируемые результаты обучения

Планируемые результаты обучения

  • Решает задачи на ввод-вывод и целочисленную арифметику
  • Применяет логические выражения, условный оператор, оператор цикла while
  • Решает задачи на работу с вещественными числами, применяет функции работы со строками
  • Применяет цикл for, функцию range, решает задачи с использованием локальных и глобальных переменных
  • Применяет словари, множества, методы работы с отдельными элементами и всеми структурами
  • Умеет работать с текстом, файлами csv, электронными таблицами xlsx и листами в них
  • Знает основы HTML, получает ресурсы по URLадресу, использует библиотеки для обработки HTML
  • Размечает данные с помощью XML, умеет получать геоданные
  • Обрабатывает данные в формате json, работает с публичным интерфейсом API
  • Визуализирует графики с использованием pyplot, отображает картографическую информацию с помощью API leaflet
  • Знает основные определения понятий науки о данных
  • Умеет вывести и интерпретировать описательную статистику для выборки. Знает основные определения понятий.
  • Отличает основные типы графиков и область их применения
  • Умеет использовать пакеты для построения регрессий. Может дать определение MAE, MAPE, MSE, R2.
  • Умеет отличать алгоритмы классификации. Понимает область применения алгоритмов классификации и их различие. Умеет считывать PR и ROC-кривые.
  • Умеет применять пакеты для работы с текстовыми данными. Умеет применять модель классификации, оценивать качество модели и интерпретировать полученные результаты.
  • Знает о применении DS в бизнес-кейсах, отличает и может описать использованные алгоритмы, методы и результаты.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Арифметика
    Ввод-вывод и целочисленная арифметика
  • Условный оператор, цикл while
    Логические выражения и условный оператор, оператор цикла while
  • Вещественные числа и строки
    Работа с вещественными числами, функции работы со строками, срезы
  • Цикл for, функции
    Цикл for, функция range, функции, локальные и глобальные переменные
  • Словари и множества
    Словари, множества, методы работы с отдельными элементами и всеми структурами
  • Обработка текстовых файлов и электронных таблиц
    Работа с текстом, файлами csv, электронные таблицы xlsx и листы в них, доступ к ячейкам, чтение и запись
  • Обработка и создание HTML-страниц
    Основы HTML, получение ресурсов по URL-адресу, использование библиотек для обработки HTML
  • XML и передача параметров в URL
    Разметка данных с помощью XML, примеры XML, геоданные OpenStreetMap и их получение
  • json и API
    Обработка данных в формате json, работа с публичным интерфейсом API
  • Визуализация данных
    Визуализация графиков с использованием pyplot, отображение картографической информации с помощью API leaflet
  • Введение. Что такое Data Science
    • Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data. • Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML? • Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес. • Обзор инструментов и библиотек, которыми будем пользоваться: Python, numpy, введение в pandas. • Практика с Pandas, обзор датасета, работа с документацией
  • Краткий курс нужной математики для Data Science
    • Теория вероятностей: вероятность, распределение, характеристики распределений. • Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум. • Пакет Pandas • Кратко - векторы, матрицы.
  • Визуализация данных
    • Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных. • Зачем нужна визуализация данных в бизнесе • Основные ошибки при визуализации
  • Регрессия
    • Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода. • Метрики регрессии: MAE, MAPE, MSE, R2 • Описание и постановка задач для регрессии
  • Классификация: KNN, Алгоритм решающих деревьев
    • Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая. • Обучение с учителем и без учителя. Валидация. • Задачи классификации • Алгоритмы классификации и их отличия • Что такое энтропия • Жадный алгоритм • Критерий информативности • Переобучение и валидация
  • Анализ текстовых данных: подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
    • Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников. • Разметка комментариев по тональности • Обучение модели, которая выявляет тональности у комментариев на размеченной выборке • Применение модели на новых комментариях • Оценка результатов
  • Защита проектов с применением машинного обучения
    Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта. Описать бизнес-задачу, использованные методы и результаты.
Элементы контроля

Элементы контроля

  • неблокирующий Практические задачи на программирование
    Онлайн-курс "Python для извлечения и обработки данных" (URL: https://openedu.ru/course/hse/PYTHON/).
  • неблокирующий Домашние задания
    5 домашних заданий в течение второй части курса. Общая оценка за ДЗ = (ДЗ1 + ДЗ2 + ДЗ3 + ДЗ4 + ДЗ5)/5. Вид формулы округления: Стандартное арифметическое.
  • неблокирующий Работа на семинарах
  • блокирующий Выступление с презентацией
    Устная презентация групповой работы (проекта) по детальному разбору решения бизнес-кейса с применением машинного обучения и искусственного интеллекта. Экзамен состоялся в 3-ем модуле.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.25 * Выступление с презентацией + 0.42 * Домашние задания + 0.25 * Практические задачи на программирование + 0.08 * Работа на семинарах
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
  • HEER, J., BOSTOCK, M., & OGIEVETSKY, V. (2010). A Tour Through the Visualization Zoo. Communications of the ACM, 53(6), 59–67. https://doi.org/10.1145/1743546.1743567
  • Linoff, G., & Berry, M. J. A. (2011). Data Mining Techniques : For Marketing, Sales, and Customer Relationship Management (Vol. 3rd ed). Indianapolis, Ind: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=520245
  • Lutz, M. (2008). Learning Python (Vol. 3rd ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=415392
  • Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081

Рекомендуемая дополнительная литература

  • Дарелл Хафф. Как лгать при помощи статистики = How to Lie with Statistics. — М.: Альпина Паблишер, 2015. — 163 с. — ISBN 978-5-9614-5212-9. http://lib.alpinadigital.ru/ru/library/book/5573