• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Методы и системы обработки больших данных

Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Гюльмамедов Саттар Алекперович
Язык: русский
Кредиты: 5
Контактные часы: 56

Программа дисциплины

Аннотация

В рамках курса студенты узнают о различных видах программных решений, используемых при работе с большими данными: фреймворке hadoop и его составляющих, MPP СУБД Greenplum, СУБД Clickhouse, Apache Airflow и других инструментах. Узнают какие задачи решают инженеры данных и какие приемы используют. Студенты на практике реализуют несколько ETL процессов, с помощью указанных выше инструментов
Цель освоения дисциплины

Цель освоения дисциплины

  • Уметь реализовать DAG для переноса данных между системами хранения
  • Настраивать промежуточное ПО (Airflow, prefect) для организации ETL-процессов
  • Настраивать рабочее место инженера данных
  • Извлекать и записывать данные в Kafka
  • Объяснять нюансы работы с Kafka
  • Извлекать и записывать данные в Clickhouse
  • Знать нюансы работы с СУБД Clickhouse
  • Извлекать данные из СУБД или MPP, используя Apache Spark
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать архитектуру Apache Spark
  • Уметь применять утилиты hdfs
  • Знать программную модель MapReduce и уметь ее использовать
  • Уметь выполнять базовую настройку каждой разновидности узла кластера Hadoop
  • Знать виды узлов кластера Hadoop и их назначение
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в BD. Мотивация/принципы/философия
  • Кластер Hadoop. Структура
  • Работа с HDFS: утилиты/структура/MR
  • Apache Hive как средство реализации warehouse
  • Среда разработки (настройка EN)
  • Apache Spark - варианты запуска и работы с кластером
  • Apache Spark - DF.API vs spark.sql
  • Оркестрация процессов обработки данных с помощью Apache Airflow
  • Оркестрация процессов обработки данных с помощью dbt
  • Оркестрация процессов обработки данных с помощью prefect
  • Реляционные БД и MPP на примере PostgreSQL и Greenplum
  • СУБД Clickhouse
  • Потоки данных на примере Apache Kafka
  • Защита финального проекта
Элементы контроля

Элементы контроля

  • неблокирующий Проверочная работа на семинаре 1
    Развертывание кластера Hadoop
  • неблокирующий Проверочная работа на семинаре 2
    Использование программной модели MapReduce
  • неблокирующий Проверочная работа на семинаре 3
    Развертывание и настройка Apache Hive
  • неблокирующий Проверочная работа на семинаре 4
    Настройка среды разработки инженера данных
  • неблокирующий Проверочная работа на семинаре 5
    Запуск Spark в кластерном и бескластерном режимах
  • неблокирующий Проверочная работа на семинаре 6
    Реализация простейших ETL операций с помощью разных видов синтаксиса
  • неблокирующий Проверочная работа на семинаре 7
    Оркестрация процессов с помощью Apache Airflow
  • неблокирующий Проверочная работа на семинаре 8
    Оркестрация процессов с помощью dbt
  • неблокирующий Проверочная работа на семинаре 9
    Оркестрация процессов с помощью prefect
  • неблокирующий Проверочная работа на семинаре 10
    Развертывание кластера Greenplum
  • неблокирующий Проверочная работа на семинаре 11
    Развертывание и настройка СУБД Clickhouse
  • неблокирующий Проверочная работа на семинаре 12
    Развертывание и настройка Apache Kafka
  • неблокирующий Проект
    Сдача проекта проводится в устной форме, возможно проведение в аудитории или на платформе Zoom.
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    Итог = Округление(0.5 * ПР + 0.5 * ЗП), где ДЗ — средняя оценка за все домашние задания, ЗП — оценка за за защиту проекта
Список литературы

Список литературы

Рекомендуемая основная литература

  • NoSQL : database for storage and retrieval of data in cloud, , 2017

Рекомендуемая дополнительная литература

  • NoSQL : новая методология разработки нереляционных баз данных, Садаладж, П. Дж., 2016