Бакалавриат
2019/2020
Машинное обучение для больших данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра Яндекс
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Язык:
русский
Кредиты:
4
Контактные часы:
46
Программа дисциплины
Аннотация
Дисциплина знакомит студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями. Для освоения учебной дисциплины студенты должны владеть знаниями и компетенциями следующих дисциплин: Математический анализ Линейная алгебра и геометрия Теория вероятностей Математическая статистика Алгоритмы и структуры данных Машинное обучение I
Цель освоения дисциплины
- ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения
- знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных;
- уметь работать с большими данными в реальных задачах.
- владеть инструментами обработки данных в парадигме MapReduce;
Содержание учебной дисциплины
- Онлайн обучение и линейные моделиОнлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
- Введение в Apache Spark и оптимизация гиперпараметровОбобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
- Рекомендательные системыОсобенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
- Бустинг для больших данныхПодходы к распараллеливанию бустинга над решающими деревьями. Обзор реализации xgboost.
- НейросетиРаспараллеливание SGD: async sgd, delayed sgd. Parameter Server. Эффективное использование нескольких GPU, использование нескольких машин с GPU.
- LSH для нахождения похожих объектовНахождение похожих объектов на примере меры Жаккара. LSH на примере задачи нахождения похожих новостей.
- Кластеризация больших данныхРаспределенный вариант алгоритма K-Means.
Элементы контроля
- ЭкзаменПисьменный экзамен дистанционно. Технические требования: web-камера, микрофон, наушники / колонки, Zoom.
- Домашние задания
- Проверочные работы
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.5 * Домашние задания + 0.2 * Проверочные работы + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
Рекомендуемая дополнительная литература
- Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968