Введение в платформы данных

Бакалавриат 2025/2026

Статус: Курс по выбору (Прикладная математика и информатика)

Кто читает: Базовая кафедра МТС

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 1, 2 модуль

Охват аудитории: для своего кампуса

Язык: русский

Кредиты: 5

Контактные часы: 56

Дополнительные материалы в LMS Задать вопрос

Аннотация

Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API. Теоретическая часть будет представлена в виде онлайн-курса, что позволит вам просматривать лекции в комфортном темпе и возвращаться к ним при возникновении трудностей. Практическая часть будет проходить при поддержке преподавателей, которые помогут вам освоить материал, ответят на все возникающие вопросы и дадут обратную связь по домашним заданиям. По необходимости будут организованы встречи в формате Q&A, где вы сможете задать вопросы и получить развернутые ответы от экспертов.

Цель освоения дисциплины

Понимать принципы работы и структуры платформ данных
Изучить архитектуры и компоненты систем обработки больших данных на примере экосистемы Hadoop, DataLake, DataWarehouse
Научиться запускать, развертывать и управлять кластерами и платформами данных
Освоить инструменты и методы работы с большими данными
Понимать, как управлять качеством данных - Изучить современные инструменты бизнес-аналитики

Планируемые результаты обучения

Понять основные концепции платформ данных
Понять из каких компонентов состоят платформы данных
Научиться запускать собственную платформу данных
Понимание компонентов Hadoop и архитектуры кластера
Знание системы HDFS, её свойств и интеграции с другими компонентами Hadoop
Умение развертывать Hadoop и выполнять базовые операции файловой системы
Понимание парадигмы MapReduce
Знание системы управления ресурсами YARN
Понимание форматов файлов в Hadoop
Знание других проектов экосистемы Hadoop
Понимание назначения, структуры и компонентов Hive
Умение развертывать Hive и выполнять операции с ним
Знание HiveQL и организации данных в Hive
Сравнение Hive с традиционными RDBMS
Понимание архитектуры и назначения Spark
Умение развертывать кластер Spark
Знание Spark DataFrame API
Понимание взаимодействия между компонентами Hadoop
Знание средств организации ETL-процессов
Умение работать с DBT, Prefect и NiFi
Сравнение различных инструментов ETL
Понимание способов организации хранилищ: Data Lake, Data Warehouse, Lakehouse
Знание систем Greenplum и Clickhouse
Понимание использовани Kafka
Знание принципов контроля качества данных (DQ)
Понимание основ Data Governance (DatGov)
Умение использовать инструменты бизнес-аналитики (BI)

Содержание учебной дисциплины

Основные концепции платформ данных
Хранение данных
Загрузка данных в хранилище из различных источников. ETL и Streaming
Построение витрин данных в хранилище. Модели данных
Оптимизация работы пользователей с хранилищем. Оптимизация производительности
Data Governance. Новый уровень доверия к данным
Качество данных. Что это такое и как его измерять
Каталог данных. Построение Data Mesh
Аналитика данных. Способы работы с данными в хранилище. Data Virtualization
Business intelligence и визуализация данных
Введение в обработку больших данных и Hadoop
Обработка данных в Hadoop
Аналитика и обработка данных с использованием Hive
Apache Spark и его применение
Инструменты организации ETL-процессов
Технологии хранения и обработки больших данных
Управление качеством данных и бизнес-аналитика

Элементы контроля

Домашнее задание 3
Развертывание Hive
Домашнее задание 4
Развертывание кластера Spark
Домашнее задание 5
Развертывание Airflow, реализация ETL процесса с его применением
Домашнее задание 6
Работа с Greenplum
Домашнее задание 7
Работа с DQ
Домашнее задание 8
Работа с BI
Домашнее задание 1
Развертывание Hadoop
Домашнее задание 2
Развертывание кластера YARN и выполнение распределенного MapReduce

Промежуточная аттестация

2025/2026 2nd module
Формула оценивания: средний балл за все домашние задания. В случае невыполнения домашнего задания в срок, за него выставляется 0 баллов.

Список литературы

Авторы

Кононова Елизавета Дмитриевна

Программа дисциплины