Кто читает:: Школа коммуникаций

Статус:: Курс по выбору

Когда читается:: 2-й курс, 1 модуль

Полная версия программы учебной дисциплины

Аннотация

Курс направлен на: • Изучение, сравнительный анализ баз данных – ClickHouse, MongoDB, Vertica, Postgre и др. • Получение практических навыков работы со встроенными инструментами ML в базах данных. • Обзор и решение практических задач по обработке BD, моделирование и best practics. • Сравнительный анализ с OLAP, реляционными СУБД (Postgre, MS SQL Server), NoSQL (ElasticSearch, Mongo DB) и Hadoop и примеры решения практических задач. • Получение практических навыков работы с облачными системами.

Цель освоения дисциплины

Целью освоения дисциплины "Инструменты анализа и хранения больших данных" является получение студентами знаний и навыков владения современными методами и средствами, предназначенными для обработки и хранения больших данных и построения аналитики по ним для задач обеспечения медиапланирования и управления рекламными кампаниями.

Планируемые результаты обучения

Знает основные принципы организации реляционных БД и хранилищ данных. Владеет основными методами обработки информации в реляционых БД, включая язык SQL. Умеет применять инструменты работы с хранилищами данных для решения задач аналитики в медиапланировании.
Понимает основные принципы работы NoSQL-баз данных и их отличия от реляционных БД. Умеет применять полученные знания в задачах обработки больших данных с помощью NoSQL-инструментов для получения аналитической отчетности.
Имеет представление о месте и роли Big Data-инструментов в задачах медипланирования. Умеет применять инструментарий распределенной обработки данных и построения аналитики на промышленных массивах данных.
Умеет встраивать решения Amazon Web Services в систему для обработки больших данных, выбирает подходящие решения для хранения, анализа и визуализации данных на AWS.

Содержание учебной дисциплины

Основные концепции организации реляционных баз данных и хранилища данных (DWH)
Отличие баз данных от хранилищ данных (Digital WareHouses - DWH). Подходы к организации хранилищ данных и инструменты их реализации. Назначение хранилищ данных и их место в корпоративной экосистеме. Сырые (raw) и нормализованные данные. Организация витрин данных. Основные принципы организации реляционных баз данных. Язык SQL. Хранение данных и индексирование. Транзакции и восстановление. Общие сведения о хранилищах данных. Архитектура хранилищ данных. Общие сведения о СУБД Postgre SQL и Power BI. Построение хранилища данных для аналитической системы по данным телесмотрения. Создание витрины данных на основе Power BI.
NoSQL – базы данных
Особенности реализации нереляционных баз данных. Плюсы и минусы ClickHouse. Лучшие практики построения аналитических систем. Агрегированные материализованные представления, их построение. Основы NoSQL баз данных. Теорема CAP. Классификация NoSQL баз данных. Отличия SQL и NoSQL баз данных. Общие сведения о колоночных аналитических СУБД. Особенности архитектуры СУБД ClickHouse и MongoDB. Области применения СУБД MongoDB. Основы анализа данных в MongoDB. Построение хранилища в ClickHouse по данным телесмотрения. Создание ETL-механизмов для импорта данных в хранилище. Создание отчетности на базе загруженных данных и агрегированных матпредставлений. Построение хранилища MongoDB. Загрузка исходных данных в хранилище MongoDB. Подготовка данных для формирования отчетности из MongoDB. Формирование отчетности в Power BI.
Облачные вычисления, анализ и обработка больших данных в облаке AWS
Решения AWS для обработки больших данных. Решения для хранения данных на AWS (Amazon DynamoDB, Amazon DocumentDB, Amazon S3, Amazon Redshift и др.), критерии выбора. Решения для анализа и визуализации данных (Amazon Athena, Amazon QuickSight, Amazon Kinesis, AWS Glue и др.).
Инструменты работы с Big Data
Принципы и подходы распределенной обработки больших данных. Особенности HDFS. Модель распределенных вычислений MapReduce. Экосистема Hadoop. Фреймфорк Apache Spark и его отличия от других баз данных. Распределенная обработка данных с использованием MapReduce. Управление распределенными данными в Apache Spark и Apache Hadoop. Загрузка данных по телесмотрению в HDFS. Работа с HDFS через утилиту командной строки. Построение запросов через Spark к загруженным данным. Отличия от других баз данных. Создание ML-модели. Предсказание пола зрителя на основе данных телесмотрения.

Элементы контроля

Аудиторная работа
Решение бизнес-кейсов

Промежуточная аттестация

Промежуточная аттестация (1 модуль)
0.35 * Аудиторная работа + 0.65 * Решение бизнес-кейсов

Магистерская программа «Цифровые коммуникации и продуктовая аналитика»

Контакты:

Скачать презентацию программы

Инструменты анализа и хранения больших данных

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература