Инструменты анализа и хранения больших данных

Магистратура 2019/2020

Лучший по критерию «Новизна полученных знаний»

Статус: Курс по выбору (Коммуникации, основанные на данных)

Направление: 42.04.01. Реклама и связи с общественностью

Кто читает: Школа коммуникаций

Где читается: Факультет креативных индустрий

Когда читается: 2-й курс, 1, 2 модуль

Формат изучения: с онлайн-курсом

Прогр. обучения: Коммуникации, основанные на данных

Язык: русский

Кредиты: 7

Контактные часы: 30

Полная версия программы учебной дисциплины

Аннотация

Курс направлен на: • Изучение, сравнительный анализ баз данных – ClickHouse, MongoDB, Vertica, Postgre и др. • Получение практических навыков работы со встроенными инструментами ML в базах данных. • Обзор и решение практических задач по обработке BD, моделирование и best practics. • Сравнительный анализ с OLAP, реляционными СУБД (Postgre, MS SQL Server), NoSQL (ElasticSearch, Mongo DB) и Hadoop и примеры решения практических задач.

Цель освоения дисциплины

Целью освоения дисциплины "Инструменты анализа и хранения больших данных" является получение студентами знаний и навыков владения современными методами и средствами, предназначенными для обработки и хранения больших данных и построения аналитики по ним для задач обеспечения медиапланирования и управления рекламными кампаниями.

Планируемые результаты обучения

Знает основные принципы организации реляционных БД и хранилищ данных. Владеет основными методами обработки информации в реляционых БД, включая язык SQL. Умеет применять инструменты работы с хранилищами данных для решения задач аналитики в медиапланировании.
Понимает основные принципы работы NoSQL-баз данных и их отличия от реляционных БД. Умеет применять полученные знания в задачах обработки больших данных с помощью NoSQL-инструментов для получения аналитической отчетности.
Имеет представление о месте и роли Big Data-инструментов в задачах медипланирования. Умеет применять инструментарий распределенной обработки данных и построения аналитики на промышленных массивах данных.

Содержание учебной дисциплины

Основные концепции организации реляционных баз данных и хранилища данных (DWH)
Отличие баз данных от хранилищ данных (Digital WareHouses - DWH). Подходы к организации хранилищ данных и инструменты их реализации. Назначение хранилищ данных и их место в корпоративной экосистеме. Сырые (raw) и нормализованные данные. Организация витрин данных. Основные принципы организации реляционных баз данных. Язык SQL. Хранение данных и индексирование. Транзакции и восстановление. Общие сведения о хранилищах данных. Архитектура хранилищ данных. Общие сведения о СУБД Postgre SQL и Power BI. Построение хранилища данных для аналитической системы по данным телесмотрения. Создание витрины данных на основе Power BI.
NoSQL – базы данных
Особенности реализации нереляционных баз данных. Плюсы и минусы ClickHouse. Лучшие практики построения аналитических систем. Агрегированные материализованные представления, их построение. Основы NoSQL баз данных. Теорема CAP. Классификация NoSQL баз данных. Отличия SQL и NoSQL баз данных. Общие сведения о колоночных аналитических СУБД. Особенности архитектуры СУБД ClickHouse и MongoDB. Области применения СУБД MongoDB. Основы анализа данных в MongoDB. Построение хранилища в ClickHouse по данным телесмотрения. Создание ETL-механизмов для импорта данных в хранилище. Создание отчетности на базе загруженных данных и агрегированных матпредставлений. Построение хранилища MongoDB. Загрузка исходных данных в хранилище MongoDB. Подготовка данных для формирования отчетности из MongoDB. Формирование отчетности в Power BI.
Инструменты работы с Big Data
Принципы и подходы распределенной обработки больших данных. Особенности HDFS. Модель распределенных вычислений MapReduce. Экосистема Hadoop. Фреймфорк Apache Spark и его отличия от других баз данных. Распределенная обработка данных с использованием MapReduce. Управление распределенными данными в Apache Spark и Apache Hadoop. Загрузка данных по телесмотрению в HDFS. Работа с HDFS через утилиту командной строки. Построение запросов через Spark к загруженным данным. Отличия от других баз данных. Создание ML-модели. Предсказание пола зрителя на основе данных телесмотрения.

Элементы контроля

Аудиторная работа
Проект

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
0.35 * Аудиторная работа + 0.65 * Проект

Программа дисциплины