Машинное обучение для больших данных

Бакалавриат 2019/2020

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Базовая кафедра Яндекс

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 3 модуль

Формат изучения: без онлайн-курса

Преподаватели: Бардуков Анатолий Андреевич, Зимовнов Андрей Вадимович, Космачев Алексей Дмитриевич

Язык: русский

Кредиты: 4

Контактные часы: 46

Полная версия программы учебной дисциплины

Аннотация

Дисциплина знакомит студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями. Для освоения учебной дисциплины студенты должны владеть знаниями и компетенциями следующих дисциплин:  Математический анализ  Линейная алгебра и геометрия  Теория вероятностей  Математическая статистика  Алгоритмы и структуры данных  Машинное обучение I

Цель освоения дисциплины

ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями

Планируемые результаты обучения

знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных;
уметь работать с большими данными в реальных задачах.
владеть инструментами обработки данных в парадигме MapReduce;

Содержание учебной дисциплины

Онлайн обучение и линейные модели
Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
Введение в Apache Spark и оптимизация гиперпараметров
Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
Рекомендательные системы
Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
Бустинг для больших данных
Подходы к распараллеливанию бустинга над решающими деревьями. Обзор реализации xgboost.
Нейросети
Распараллеливание SGD: async sgd, delayed sgd. Parameter Server. Эффективное использование нескольких GPU, использование нескольких машин с GPU.
LSH для нахождения похожих объектов
Нахождение похожих объектов на примере меры Жаккара. LSH на примере задачи нахождения похожих новостей.
Кластеризация больших данных
Распределенный вариант алгоритма K-Means.

Элементы контроля

Экзамен
Письменный экзамен дистанционно. Технические требования: web-камера, микрофон, наушники / колонки, Zoom.
Домашние задания
Проверочные работы

Промежуточная аттестация

Промежуточная аттестация (3 модуль)
0.5 * Домашние задания + 0.2 * Проверочные работы + 0.3 * Экзамен

Программа дисциплины