Методы и системы обработки больших данных

Бакалавриат 2023/2024

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Базовая кафедра МТС

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Преподаватели: Гюльмамедов Саттар Алекперович

Язык: русский

Кредиты: 5

Контактные часы: 56

Дополнительные материалы в LMS Задать вопрос

Аннотация

В рамках курса студенты узнают о различных видах программных решений, используемых при работе с большими данными: фреймворке hadoop и его составляющих, MPP СУБД Greenplum, СУБД Clickhouse, Apache Airflow и других инструментах. Узнают какие задачи решают инженеры данных и какие приемы используют. Студенты на практике реализуют несколько ETL процессов, с помощью указанных выше инструментов

Цель освоения дисциплины

Уметь реализовать DAG для переноса данных между системами хранения
Настраивать промежуточное ПО (Airflow, prefect) для организации ETL-процессов
Настраивать рабочее место инженера данных
Извлекать и записывать данные в Kafka
Объяснять нюансы работы с Kafka
Извлекать и записывать данные в Clickhouse
Знать нюансы работы с СУБД Clickhouse
Извлекать данные из СУБД или MPP, используя Apache Spark

Планируемые результаты обучения

Знать архитектуру Apache Spark
Уметь применять утилиты hdfs
Знать программную модель MapReduce и уметь ее использовать
Уметь выполнять базовую настройку каждой разновидности узла кластера Hadoop
Знать виды узлов кластера Hadoop и их назначение

Содержание учебной дисциплины

Введение в BD. Мотивация/принципы/философия
Кластер Hadoop. Структура
Работа с HDFS: утилиты/структура/MR
Apache Hive как средство реализации warehouse
Среда разработки (настройка EN)
Apache Spark - варианты запуска и работы с кластером
Apache Spark - DF.API vs spark.sql
Оркестрация процессов обработки данных с помощью Apache Airflow
Оркестрация процессов обработки данных с помощью dbt
Оркестрация процессов обработки данных с помощью prefect
Реляционные БД и MPP на примере PostgreSQL и Greenplum
СУБД Clickhouse
Потоки данных на примере Apache Kafka
Защита финального проекта

Элементы контроля

Проверочная работа на семинаре 1
Развертывание кластера Hadoop
Проверочная работа на семинаре 2
Использование программной модели MapReduce
Проверочная работа на семинаре 3
Развертывание и настройка Apache Hive
Проверочная работа на семинаре 4
Настройка среды разработки инженера данных
Проверочная работа на семинаре 5
Запуск Spark в кластерном и бескластерном режимах
Проверочная работа на семинаре 6
Реализация простейших ETL операций с помощью разных видов синтаксиса
Проверочная работа на семинаре 7
Оркестрация процессов с помощью Apache Airflow
Проверочная работа на семинаре 8
Оркестрация процессов с помощью dbt
Проверочная работа на семинаре 9
Оркестрация процессов с помощью prefect
Проверочная работа на семинаре 10
Развертывание кластера Greenplum
Проверочная работа на семинаре 11
Развертывание и настройка СУБД Clickhouse
Проверочная работа на семинаре 12
Развертывание и настройка Apache Kafka
Проект
Сдача проекта проводится в устной форме, возможно проведение в аудитории или на платформе Zoom.

Промежуточная аттестация

2023/2024 учебный год 2 модуль
Итог = Округление(0.5 * ПР + 0.5 * ЗП), где ДЗ — средняя оценка за все домашние задания, ЗП — оценка за за защиту проекта

Список литературы

Авторы

Оруджева Альбина Александровна

Программа дисциплины