• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Машинное обучение для больших данных

Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 3 модуль
Формат изучения: с онлайн-курсом
Преподаватели: Зимовнов Андрей Вадимович, Космачев Алексей Дмитриевич, Орлов Никита Андреевич
Язык: русский
Кредиты: 4
Контактные часы: 44

Программа дисциплины

Аннотация

Дисциплина знакомит студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями. Для освоения учебной дисциплины студенты должны владеть знаниями и компетенциями следующих дисциплин:  Математический анализ  Линейная алгебра и геометрия  Теория вероятностей  Математическая статистика  Алгоритмы и структуры данных  Машинное обучение I
Цель освоения дисциплины

Цель освоения дисциплины

  • ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть инструментами обработки данных в парадигме MapReduce
  • Уметь работать с большими данными в реальных задачах
  • Знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Hadoop
  • Spark
    Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
  • Linear models
    Онлайн-подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
  • Boosting
    Подходы к распараллеливанию бустинга над решающими деревьями. Обзор реализации xgboost.
  • Recommender systems
    Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
  • Neural networks
    Распараллеливание SGD: async sgd, delayed sgd. Parameter Server. Эффективное использование нескольких GPU, использование нескольких машин с GPU.
  • Hashing tricks
  • Min hash & LSH
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Основное домашнее задание. Выдается после 6 семинара. На выполнение - 4 недели.
  • неблокирующий Мини домашние задания
    Мини домашние задания (4 обязательных и 1 бонусное). Мини-домашнее задание 1 выдается после 1 семинара. На выполнение 2 недели. Мини-домашнее задание 2 выдается после 3 семинара. На выполнение 3 недели. Мини-домашнее задание 3 выдается после 6 семинара. На выполнение 2 недели. Мини-домашнее задание 4 выдается после 8 семинара. На выполнение 2 недели. Мини-домашнее задание 5 выдается после 10 семинара. На выполнение 2 недели.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * Домашнее задание + 0.5 * Мини домашние задания
Список литературы

Список литературы

Рекомендуемая основная литература

  • An Introduction to the Bootstrap, Efron, B., 1993
  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Рекомендуемая дополнительная литература

  • Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
  • Машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных, Флах, П., 2015