Кто читает:: Департамент больших данных и информационного поиска

Статус:: Курс обязательный

Когда читается:: 2-й курс, 1, 2 модуль

Преподаватель

Стаценко Максим Михайлович

Полная версия программы учебной дисциплины

Аннотация

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям. Так как наш курс длится всего два модуля, а тема BigData настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов

Цель освоения дисциплины

По результатам курса студенты получат базовое представление о распределенной обработке больших данных и будут уметь пользоваться основным инструментами в данной области

Планируемые результаты обучения

Как загружать данные в HDFS, выполнять операции чтения и записи, а также как использовать HDFS для обработки данных
Навыки написания и запуска простой программы, использующей концепцию MapReduce. Как определить функции Map и Reduce, передать данные между ними, обработать и интерпретировать результаты. Работа с различными типами данных. Решение задач по подсчету количества слов в тексте, нахождению наиболее часто встречающихся слов, агрегации данных и вычислению статистических показателей
Создание запросов на языке HiveQL, анализ данных и выполнение сложных операций
Создание и отправка задач на выполнение в кластере. Использование инструментов мониторинга в YARN для отслеживания состояния задач, обнаружения ошибок и оптимизации производительности
Процесс записи и чтения данных в Parquet/ORC, а также возможности оптимизации запросов и сжатия данных
Чтение и запись данных из различных источников, таких как файлы и другие. Применение методов преобразования данных и агрегации. Использование распределенных вычислений в Spark для обработки больших объемов данных
Изучение основных методов работы с данными в GreenPlum: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с GreenPlum, включая создание индексов, разделение данных и оптимизацию запросов
Изучение основных методов работы с данными в ClickHouse: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с ClickHouse, включая создание индексов, разделение данных и оптимизацию запросов
Создание и настройка отчетов, визуализация данных, фильтрация и сортировка данных, работа с различными типами графиков и диаграмм. Анализ данных в DataLens: создание сводных таблиц
Создание рабочих процессов с помощью AirFlow, включая определение задач, настройку расписания выполнения, определение зависимостей и передачу данных между задачами
Изучение записи и чтения сообщений, масштабирования и отказоустойчивости, обработки потоков данных и обеспечения гарантированной доставки сообщений. Создание системы обмена сообщениями с использованием Apache Kafka, включая настройку брокеров и топиков, определение производителей и потребителей, управление партициями и репликацией данных
Изучение чтения и обработки потоков данных, преобразования данных, агрегации. Создание систем анализа потоков данных с помощью Spark Streaming, включая настройку и конфигурацию, определение и применение операций на потоках данных
Проектирование логической архитектуры хранилищ данных, включая выбор и организацию компонентов, определение потоков данных и их трансформаций, настройку и конфигурацию системы
Создание и использование стандартов и метаданных, а также их роль в обеспечении качества данных
Знание основных трендов и популярных на данный момент инструментов

Содержание учебной дисциплины

HDFS
Основы и алгоритмы MapReduce
Hive
Основы YARN
Parquet/ORC колоночный форматы хранения
Spark для Batch обработки и Zeppelin
MPP базы данных: GreenPlum
MPP базы данных: ClickHouse
BI инструменты на примере DataLens
Регуляризация задач на примере AirFlow
Apache Kafka
Spark Streaming
Логическая архитектура хранилищ данных
Data governance
Modern Data Stack

Элементы контроля

Домашние задания
Финальный проект

Промежуточная аттестация

2023/2024 учебный год 2 модуль
0.7 * Домашние задания + 0.3 * Финальный проект

Магистерская программа «Искусственный интеллект»

Обработка и анализ больших массивов данных

Преподаватель

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература