Bachelor
2019/2020
Big Data Essentials
Type:
Compulsory course (Applied Mathematics and Information Science)
Area of studies:
Applied Mathematics and Information Science
Delivered by:
Big Data and Information Retrieval School
Where:
Faculty of Computer Science
When:
4 year, 2, 3 module
Mode of studies:
distance learning
Language:
English
ECTS credits:
5
Contact hours:
8
Course Syllabus
Abstract
В курсе дается введение в следующие темы: - Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo. - Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
Learning Objectives
- Целью освоения дисциплины является ознакомление студентов с основными подходами к обработке больших данных, их особенностями и ограничениями.
Expected Learning Outcomes
- Владеть инструментами обработки данных в парадигме MapReduce.
- Уметь работать с большими данными в реальных задачах.
Course Contents
- Онлайн обучение и линейные моделиОнлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
- Введение в Apache Spark и оптимизация гиперпараметровОбобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
Assessment Elements
- Домашнее задание, часть 1 (ДЗ1)Домашнее задание по основам обработки больших данных
- Домашнее задание, часть 2 (ДЗ2)Домашнее задание по основам обработки больших данных. Итоговая оценка формируется из оценок за отдельные элементы контроля. Технические требования отсутствуют.
Interim Assessment
- Interim assessment (3 module)0.5 * Домашнее задание, часть 1 (ДЗ1) + 0.5 * Домашнее задание, часть 2 (ДЗ2)
Bibliography
Recommended Core Bibliography
- Langford, J., Bilenko, M., & Bekkerman, R. (2011). Scaling up Machine Learning : Parallel and Distributed Approaches. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=416666
- Rajaraman, A., & Ullman, J. D. (2012). Mining of Massive Datasets. New York, N.Y.: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408850
Recommended Additional Bibliography
- Ryza, S., Laserson, U., Owen, S., & Wills, J. (2017). Advanced Analytics with Spark : Patterns for Learning From Data at Scale (Vol. Second edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1533378