Master
2019/2020




Big Data Processing
Category 'Best Course for Broadening Horizons and Diversity of Knowledge and Skills'
Category 'Best Course for New Knowledge and Skills'
Type:
Elective course (Software Development and Data Analysis)
Area of studies:
Applied Mathematics and Informatics
Delivered by:
Department of Informatics
When:
1 year, 4 module
Mode of studies:
distance learning
Instructors:
Aleksei Shpilman
Master’s programme:
Software Development and Data Analysis
Language:
English
ECTS credits:
4
Contact hours:
4
Course Syllabus
Abstract
There is a significant number of tasks when we need not just to process an enormous volume of data but to process it as quickly as possible. Delays in tsunami prediction can cost people’s lives. Delays in traffic jam prediction cost extra time. Advertisements based on the recent users’ activity are ten times more popular. However, stream processing techniques alone are not enough to create a complete real-time system. For example to create a recommendation system we need to have a storage that allows to store and fetch data for a user with minimal latency. These databases should be able to store hundreds of terabytes of data, handle billions of requests per day and have a 100% uptime. NoSQL databases are commonly used to solve this challenging problem. After you finish this course, you will master stream processing systems and NoSQL databases. You will also learn how to use such popular and powerful systems as Kafka, Cassandra and Redis. To get the most out of this course, you need to know Hadoop and SQL. You should also have a working knowledge of bash, Python and Spark.
Learning Objectives
- mastering the flow processing system and NoSQL database. Familiarity with the use of such popular and powerful systems as Kafka, Cassandra and Redis.
Expected Learning Outcomes
- Knows the basics of real-time data processing
- able to process data in real time
- knows the concept of Spark Streaming, knows how to create applications
- works with NoSQL. Knows basic concepts, definitions, processes
Course Contents
- Welcome to the course "Big Data Applications: Real-Time Streaming"
- Basics of real-time data processing
- Spark Streaming
- NoSQL. Cassandra
- NoSQL. Redis
Assessment Elements
- course assignments
- examЭкзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Bibliography
Recommended Core Bibliography
- Zimmermann, T., Menzies, T., & Bird, C. (2015). The Art and Science of Analyzing Software Data. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=593414
Recommended Additional Bibliography
- Kelleher, J. D. (2019). Deep Learning. Cambridge: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2234376