• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site
Bachelor 2019/2020

Big Data Essentials

Area of studies: Applied Mathematics and Information Science
When: 4 year, 2, 3 module
Mode of studies: distance learning
Instructors: Космачев Алексей Дмитриевич, Anatoly Bardukov, Andrey V. Zimovnov
Language: English
ECTS credits: 5
Contact hours: 8

Course Syllabus

Abstract

В курсе дается введение в следующие темы: - Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo. - Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
Learning Objectives

Learning Objectives

  • Целью освоения дисциплины является ознакомление студентов с основными подходами к обработке больших данных, их особенностями и ограничениями.
Expected Learning Outcomes

Expected Learning Outcomes

  • Владеть инструментами обработки данных в парадигме MapReduce.
  • Уметь работать с большими данными в реальных задачах.
Course Contents

Course Contents

  • Онлайн обучение и линейные модели
    Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
  • Введение в Apache Spark и оптимизация гиперпараметров
    Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
Assessment Elements

Assessment Elements

  • non-blocking Домашнее задание, часть 1 (ДЗ1)
    Домашнее задание по основам обработки больших данных
  • non-blocking Домашнее задание, часть 2 (ДЗ2)
    Домашнее задание по основам обработки больших данных. Итоговая оценка формируется из оценок за отдельные элементы контроля. Технические требования отсутствуют.
Interim Assessment

Interim Assessment

  • Interim assessment (3 module)
    0.5 * Домашнее задание, часть 1 (ДЗ1) + 0.5 * Домашнее задание, часть 2 (ДЗ2)
Bibliography

Bibliography

Recommended Core Bibliography

  • Langford, J., Bilenko, M., & Bekkerman, R. (2011). Scaling up Machine Learning : Parallel and Distributed Approaches. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=416666
  • Rajaraman, A., & Ullman, J. D. (2012). Mining of Massive Datasets. New York, N.Y.: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408850

Recommended Additional Bibliography

  • Ryza, S., Laserson, U., Owen, S., & Wills, J. (2017). Advanced Analytics with Spark : Patterns for Learning From Data at Scale (Vol. Second edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1533378