• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site
Master 2020/2021

Big Data Processing

Category 'Best Course for Career Development'
Category 'Best Course for Broadening Horizons and Diversity of Knowledge and Skills'
Category 'Best Course for New Knowledge and Skills'
Area of studies: Applied Mathematics and Informatics
Delivered by: Department of Informatics
When: 2 year, 2 module
Mode of studies: distance learning
Instructors: Anton Kuznetsov
Master’s programme: Software Development and Data Analysis
Language: English
ECTS credits: 4
Contact hours: 4

Course Syllabus

Abstract

Существует значительное количество задач, когда нам нужно не просто обработать огромный объем данных, но и обработать его как можно быстрее. Задержки в прогнозировании цунами могут стоить жизни людям. Задержки в прогнозировании пробок требуют дополнительного времени. Рекламные объявления, основанные на активности последних пользователей, в десять раз популярнее. Однако одних методов потоковой обработки недостаточно для создания полноценной системы реального времени. Например, для создания системы рекомендаций нам необходимо иметь хранилище, которое позволяет хранить и извлекать данные для пользователя с минимальной задержкой. Эти базы данных должны быть способны хранить сотни терабайт данных, обрабатывать миллиарды запросов в день и обеспечивать 100% бесперебойную работу. Базы данных NoSQL обычно используются для решения этой сложной проблемы. После того, как вы закончите этот курс, вы освоите системы обработки потоков и базы данных NoSQL. Вы также узнаете, как использовать такие популярные и мощные системы, как Kafka, Cassandra и Redis. Чтобы получить максимальную отдачу от этого курса, вам нужно знать Hadoop и SQL. Вы также должны иметь практические знания bash, Python и Spark.
Learning Objectives

Learning Objectives

  • освоение системы обработки потоков и базы данных NoSQL. Получение навыка использования систем Kafka, Cassandra и Redis.
Expected Learning Outcomes

Expected Learning Outcomes

  • Знает основные определения и понятия потоковой обработки больших данных
  • Знает основы обработки данных в реальном времени
  • работает с Spark Streaming. Знает основные понятия и процессы.
  • работает с NoSQL. Cassandra. Знает основные понятия и процессы NoSQL. Cassandra
  • работает с NoSQL. Redis. Знает основные понятия и процессы NoSQL. Redis
Course Contents

Course Contents

  • Введение в курс «Приложения для работы с большими данными: потоковая передача в реальном времени»
  • Основы обработки данных в реальном времени
  • Spark Streaming
  • NoSQL. Cassandra
  • NoSQL. Redis
Assessment Elements

Assessment Elements

  • non-blocking решение задач курса
  • blocking экзамен
    Экзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Interim Assessment

Interim Assessment

  • Interim assessment (2 module)
    0.51 * решение задач курса + 0.49 * экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Zimmermann, T., Menzies, T., & Bird, C. (2015). The Art and Science of Analyzing Software Data. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=593414

Recommended Additional Bibliography

  • Kelleher, J. D. (2019). Deep Learning. Cambridge: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2234376