• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
01
Май

Обработка и анализ больших массивов данных

2023/2024
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1, 2 модуль

Преподаватель


Стаценко Максим Михайлович

Программа дисциплины

Аннотация

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям. Так как наш курс длится всего два модуля, а тема BigData настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов
Цель освоения дисциплины

Цель освоения дисциплины

  • По результатам курса студенты получат базовое представление о распределенной обработке больших данных и будут уметь пользоваться основным инструментами в данной области
Планируемые результаты обучения

Планируемые результаты обучения

  • Как загружать данные в HDFS, выполнять операции чтения и записи, а также как использовать HDFS для обработки данных
  • Навыки написания и запуска простой программы, использующей концепцию MapReduce. Как определить функции Map и Reduce, передать данные между ними, обработать и интерпретировать результаты. Работа с различными типами данных. Решение задач по подсчету количества слов в тексте, нахождению наиболее часто встречающихся слов, агрегации данных и вычислению статистических показателей
  • Создание запросов на языке HiveQL, анализ данных и выполнение сложных операций
  • Создание и отправка задач на выполнение в кластере. Использование инструментов мониторинга в YARN для отслеживания состояния задач, обнаружения ошибок и оптимизации производительности
  • Процесс записи и чтения данных в Parquet/ORC, а также возможности оптимизации запросов и сжатия данных
  • Чтение и запись данных из различных источников, таких как файлы и другие. Применение методов преобразования данных и агрегации. Использование распределенных вычислений в Spark для обработки больших объемов данных
  • Изучение основных методов работы с данными в GreenPlum: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с GreenPlum, включая создание индексов, разделение данных и оптимизацию запросов
  • Изучение основных методов работы с данными в ClickHouse: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с ClickHouse, включая создание индексов, разделение данных и оптимизацию запросов
  • Создание и настройка отчетов, визуализация данных, фильтрация и сортировка данных, работа с различными типами графиков и диаграмм. Анализ данных в DataLens: создание сводных таблиц
  • Создание рабочих процессов с помощью AirFlow, включая определение задач, настройку расписания выполнения, определение зависимостей и передачу данных между задачами
  • Изучение записи и чтения сообщений, масштабирования и отказоустойчивости, обработки потоков данных и обеспечения гарантированной доставки сообщений. Создание системы обмена сообщениями с использованием Apache Kafka, включая настройку брокеров и топиков, определение производителей и потребителей, управление партициями и репликацией данных
  • Изучение чтения и обработки потоков данных, преобразования данных, агрегации. Создание систем анализа потоков данных с помощью Spark Streaming, включая настройку и конфигурацию, определение и применение операций на потоках данных
  • Проектирование логической архитектуры хранилищ данных, включая выбор и организацию компонентов, определение потоков данных и их трансформаций, настройку и конфигурацию системы
  • Создание и использование стандартов и метаданных, а также их роль в обеспечении качества данных
  • Знание основных трендов и популярных на данный момент инструментов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • HDFS
  • Основы и алгоритмы MapReduce
  • Hive
  • Основы YARN
  • Parquet/ORC колоночный форматы хранения
  • Spark для Batch обработки и Zeppelin
  • MPP базы данных: GreenPlum
  • MPP базы данных: ClickHouse
  • BI инструменты на примере DataLens
  • Регуляризация задач на примере AirFlow
  • Apache Kafka
  • Spark Streaming
  • Логическая архитектура хранилищ данных
  • Data governance
  • Modern Data Stack
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
  • неблокирующий Финальный проект
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.7 * Домашние задания + 0.3 * Финальный проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hadoop : the definitive guide, White, T., 2012
  • Клеппман М. - Высоконагруженные приложения. Программирование, масштабирование, поддержка - 978-5-4461-0512-0 - Санкт-Петербург: Питер - 2022 - 357916 - https://ibooks.ru/bookshelf/357916/reading - iBOOKS

Рекомендуемая дополнительная литература

  • Высоконагруженные приложения : программирование, масштабирование, поддержка, Клеппман, М., 2019