Магистратура
2019/2020
Инструменты анализа и хранения больших данных
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Коммуникации, основанные на данных)
Направление:
42.04.01. Реклама и связи с общественностью
Кто читает:
Школа коммуникаций
Где читается:
Факультет креативных индустрий
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
с онлайн-курсом
Прогр. обучения:
Коммуникации, основанные на данных
Язык:
русский
Кредиты:
7
Контактные часы:
30
Программа дисциплины
Аннотация
Курс направлен на: • Изучение, сравнительный анализ баз данных – ClickHouse, MongoDB, Vertica, Postgre и др. • Получение практических навыков работы со встроенными инструментами ML в базах данных. • Обзор и решение практических задач по обработке BD, моделирование и best practics. • Сравнительный анализ с OLAP, реляционными СУБД (Postgre, MS SQL Server), NoSQL (ElasticSearch, Mongo DB) и Hadoop и примеры решения практических задач.
Цель освоения дисциплины
- Целью освоения дисциплины "Инструменты анализа и хранения больших данных" является получение студентами знаний и навыков владения современными методами и средствами, предназначенными для обработки и хранения больших данных и построения аналитики по ним для задач обеспечения медиапланирования и управления рекламными кампаниями.
Планируемые результаты обучения
- Знает основные принципы организации реляционных БД и хранилищ данных. Владеет основными методами обработки информации в реляционых БД, включая язык SQL. Умеет применять инструменты работы с хранилищами данных для решения задач аналитики в медиапланировании.
- Понимает основные принципы работы NoSQL-баз данных и их отличия от реляционных БД. Умеет применять полученные знания в задачах обработки больших данных с помощью NoSQL-инструментов для получения аналитической отчетности.
- Имеет представление о месте и роли Big Data-инструментов в задачах медипланирования. Умеет применять инструментарий распределенной обработки данных и построения аналитики на промышленных массивах данных.
Содержание учебной дисциплины
- Основные концепции организации реляционных баз данных и хранилища данных (DWH)Отличие баз данных от хранилищ данных (Digital WareHouses - DWH). Подходы к организации хранилищ данных и инструменты их реализации. Назначение хранилищ данных и их место в корпоративной экосистеме. Сырые (raw) и нормализованные данные. Организация витрин данных. Основные принципы организации реляционных баз данных. Язык SQL. Хранение данных и индексирование. Транзакции и восстановление. Общие сведения о хранилищах данных. Архитектура хранилищ данных. Общие сведения о СУБД Postgre SQL и Power BI. Построение хранилища данных для аналитической системы по данным телесмотрения. Создание витрины данных на основе Power BI.
- NoSQL – базы данныхОсобенности реализации нереляционных баз данных. Плюсы и минусы ClickHouse. Лучшие практики построения аналитических систем. Агрегированные материализованные представления, их построение. Основы NoSQL баз данных. Теорема CAP. Классификация NoSQL баз данных. Отличия SQL и NoSQL баз данных. Общие сведения о колоночных аналитических СУБД. Особенности архитектуры СУБД ClickHouse и MongoDB. Области применения СУБД MongoDB. Основы анализа данных в MongoDB. Построение хранилища в ClickHouse по данным телесмотрения. Создание ETL-механизмов для импорта данных в хранилище. Создание отчетности на базе загруженных данных и агрегированных матпредставлений. Построение хранилища MongoDB. Загрузка исходных данных в хранилище MongoDB. Подготовка данных для формирования отчетности из MongoDB. Формирование отчетности в Power BI.
- Инструменты работы с Big DataПринципы и подходы распределенной обработки больших данных. Особенности HDFS. Модель распределенных вычислений MapReduce. Экосистема Hadoop. Фреймфорк Apache Spark и его отличия от других баз данных. Распределенная обработка данных с использованием MapReduce. Управление распределенными данными в Apache Spark и Apache Hadoop. Загрузка данных по телесмотрению в HDFS. Работа с HDFS через утилиту командной строки. Построение запросов через Spark к загруженным данным. Отличия от других баз данных. Создание ML-модели. Предсказание пола зрителя на основе данных телесмотрения.
Список литературы
Рекомендуемая основная литература
- Dean, J., & Ghemawat, S. (2008). Mapreduce: Simplified Data Processing on Large Clusters. Communications of the ACM, 51(1), 107–113. https://doi.org/10.1145/1327452.1327492
- Kimball R., Margy Ross M. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. – John Wiley & Sons, 2013.
- Luu H. Beginning Apache Spark 2: With Resilient Distributed Datasets, Spark SQL, Structured Streaming and Spark Machine Learning Library. – Berkeley: Apress, 2018.
Рекомендуемая дополнительная литература
- Spark для профессионалов : современные паттерны обработки больших данных, , 2017
- White T. Hadoop: The Definitive Guide. - O'Reilly Media, 2015.