• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Машинное обучение для больших данных

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 3 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 20
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Алекберов Артем Темурович, Анищенко Илья Игоревич
Язык: русский
Кредиты: 4
Контактные часы: 40

Программа дисциплины

Аннотация

Дисциплина знакомит студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями. Для освоения учебной дисциплины студенты должны владеть знаниями и компетенциями следующих дисциплин:  Математический анализ  Линейная алгебра и геометрия  Теория вероятностей  Математическая статистика  Алгоритмы и структуры данных  Машинное обучение I
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть инструментами обработки данных в парадигме MapReduce
  • Знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных
  • Уметь работать с большими данными в реальных задачах
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Hadoop
  • Spark
  • Linear models
  • Boosting
  • Recommender systems
  • Neural networks
  • Hashing tricks
  • Min hash & LSH
Элементы контроля

Элементы контроля

  • неблокирующий Мини-домашнее задание 1
    1. Работа с облаком 2. Алгоритм на Bash Оценивается пропорционально выполненной работе
  • неблокирующий Мини-домашнее задание 2
    1. Алгоритм на Map Reduce 2. Алгоритмы на Spark Оценивается пропорционально выполненной работе
  • неблокирующий Мини-домашнее задание 3
    1. Собрать датасет на Spark 2. Обучить классическую модель Оценивается пропорционально выполненной работе
  • неблокирующий Мини-домашнее задание 4
    1. Оптимизировать нейронную сеть Оценивается пропорционально выполненной работе
  • неблокирующий Большое домашнее задание
    1. Обучить модель на большом датасете Оценка зависит от полученного качества модели и от корректности написания кода для обучения
  • неблокирующий Соревнование
    1. Набрать наибольший скор в задаче Только дополнительные баллы. Выдается 10 студентам, которые набрали наибольший скор и которые предоставили код.
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 3 модуль
    0.5 * Большое домашнее задание + 0.125 * Мини-домашнее задание 1 + 0.125 * Мини-домашнее задание 2 + 0.125 * Мини-домашнее задание 3 + 0.125 * Мини-домашнее задание 4 + 0 * Соревнование
Список литературы

Список литературы

Рекомендуемая основная литература

  • An Introduction to the Bootstrap, Efron, B., 1993
  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Рекомендуемая дополнительная литература

  • Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
  • Машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных, Флах, П., 2015