Бакалавриат
2021/2022

Методы и системы обработки больших данных
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Ивченко Олег Николаевич
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
В рамках курса студенты узнают о различных видах программных решений, используемых при работе с большими данными: фреймворке hadoop и его составляющих, MPP СУБД Greenplum, СУБД Clickhouse, Apache Airflow и других инструментах. Узнают какие задачи решают инженеры данных и какие приемы используют. Студенты на практике реализуют несколько ETL процессов, с помощью указанных выше инструментов
Цель освоения дисциплины
- Уметь реализовать DAG для переноса данных между системами хранения
- Настраивать промежуточное ПО (Airflow, prefect) для организации ETL-процессов
- Настраивать рабочее место инженера данных
- Извлекать и записывать данные в Kafka
- Объяснять нюансы работы с Kafka
- Извлекать и записывать данные в Clickhouse
- Знать нюансы работы с СУБД Clickhouse
- Извлекать данные из СУБД или MPP, используя Apache Spark
Содержание учебной дисциплины
- Введение
- Распределённые файловые системы. HDFS
- Java для BigData-инженеров
- MapReduce
- SQL поверх больших данных
- Пакетная обработка данных. Apache Spark
- Real-time обработка данных
- NoSQL и большие данные
- Администрирование сервисов обработки больших данных