• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2019/2020

Машинное обучение для больших данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 3 модуль
Формат изучения: без онлайн-курса
Преподаватели: Бардуков Анатолий Андреевич, Зимовнов Андрей Вадимович, Космачев Алексей Дмитриевич
Язык: русский
Кредиты: 4
Контактные часы: 46

Программа дисциплины

Аннотация

Дисциплина знакомит студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями. Для освоения учебной дисциплины студенты должны владеть знаниями и компетенциями следующих дисциплин:  Математический анализ  Линейная алгебра и геометрия  Теория вероятностей  Математическая статистика  Алгоритмы и структуры данных  Машинное обучение I
Цель освоения дисциплины

Цель освоения дисциплины

  • ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения

Планируемые результаты обучения

  • знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных;
  • уметь работать с большими данными в реальных задачах.
  • владеть инструментами обработки данных в парадигме MapReduce;
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Онлайн обучение и линейные модели
    Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
  • Введение в Apache Spark и оптимизация гиперпараметров
    Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
  • Рекомендательные системы
    Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
  • Бустинг для больших данных
    Подходы к распараллеливанию бустинга над решающими деревьями. Обзор реализации xgboost.
  • Нейросети
    Распараллеливание SGD: async sgd, delayed sgd. Parameter Server. Эффективное использование нескольких GPU, использование нескольких машин с GPU.
  • LSH для нахождения похожих объектов
    Нахождение похожих объектов на примере меры Жаккара. LSH на примере задачи нахождения похожих новостей.
  • Кластеризация больших данных
    Распределенный вариант алгоритма K-Means.
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
    Письменный экзамен дистанционно. Технические требования: web-камера, микрофон, наушники / колонки, Zoom.
  • неблокирующий Домашние задания
  • неблокирующий Проверочные работы
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * Домашние задания + 0.2 * Проверочные работы + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Рекомендуемая дополнительная литература

  • Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968