• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Инструменты анализа и хранения больших данных

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 1 модуль

Программа дисциплины

Аннотация

Курс направлен на: • Изучение, сравнительный анализ баз данных – ClickHouse, MongoDB, Vertica, Postgre и др. • Получение практических навыков работы со встроенными инструментами ML в базах данных. • Обзор и решение практических задач по обработке BD, моделирование и best practics. • Сравнительный анализ с OLAP, реляционными СУБД (Postgre, MS SQL Server), NoSQL (ElasticSearch, Mongo DB) и Hadoop и примеры решения практических задач. • Получение практических навыков работы с облачными системами.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины "Инструменты анализа и хранения больших данных" является получение студентами знаний и навыков владения современными методами и средствами, предназначенными для обработки и хранения больших данных и построения аналитики по ним для задач обеспечения медиапланирования и управления рекламными кампаниями.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные принципы организации реляционных БД и хранилищ данных. Владеет основными методами обработки информации в реляционых БД, включая язык SQL. Умеет применять инструменты работы с хранилищами данных для решения задач аналитики в медиапланировании.
  • Понимает основные принципы работы NoSQL-баз данных и их отличия от реляционных БД. Умеет применять полученные знания в задачах обработки больших данных с помощью NoSQL-инструментов для получения аналитической отчетности.
  • Имеет представление о месте и роли Big Data-инструментов в задачах медипланирования. Умеет применять инструментарий распределенной обработки данных и построения аналитики на промышленных массивах данных.
  • Умеет встраивать решения Amazon Web Services в систему для обработки больших данных, выбирает подходящие решения для хранения, анализа и визуализации данных на AWS.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основные концепции организации реляционных баз данных и хранилища данных (DWH)
    Отличие баз данных от хранилищ данных (Digital WareHouses - DWH). Подходы к организации хранилищ данных и инструменты их реализации. Назначение хранилищ данных и их место в корпоративной экосистеме. Сырые (raw) и нормализованные данные. Организация витрин данных. Основные принципы организации реляционных баз данных. Язык SQL. Хранение данных и индексирование. Транзакции и восстановление. Общие сведения о хранилищах данных. Архитектура хранилищ данных. Общие сведения о СУБД Postgre SQL и Power BI. Построение хранилища данных для аналитической системы по данным телесмотрения. Создание витрины данных на основе Power BI.
  • NoSQL – базы данных
    Особенности реализации нереляционных баз данных. Плюсы и минусы ClickHouse. Лучшие практики построения аналитических систем. Агрегированные материализованные представления, их построение. Основы NoSQL баз данных. Теорема CAP. Классификация NoSQL баз данных. Отличия SQL и NoSQL баз данных. Общие сведения о колоночных аналитических СУБД. Особенности архитектуры СУБД ClickHouse и MongoDB. Области применения СУБД MongoDB. Основы анализа данных в MongoDB. Построение хранилища в ClickHouse по данным телесмотрения. Создание ETL-механизмов для импорта данных в хранилище. Создание отчетности на базе загруженных данных и агрегированных матпредставлений. Построение хранилища MongoDB. Загрузка исходных данных в хранилище MongoDB. Подготовка данных для формирования отчетности из MongoDB. Формирование отчетности в Power BI.
  • Облачные вычисления, анализ и обработка больших данных в облаке AWS
    Решения AWS для обработки больших данных. Решения для хранения данных на AWS (Amazon DynamoDB, Amazon DocumentDB, Amazon S3, Amazon Redshift и др.), критерии выбора. Решения для анализа и визуализации данных (Amazon Athena, Amazon QuickSight, Amazon Kinesis, AWS Glue и др.).
  • Инструменты работы с Big Data
    Принципы и подходы распределенной обработки больших данных. Особенности HDFS. Модель распределенных вычислений MapReduce. Экосистема Hadoop. Фреймфорк Apache Spark и его отличия от других баз данных. Распределенная обработка данных с использованием MapReduce. Управление распределенными данными в Apache Spark и Apache Hadoop. Загрузка данных по телесмотрению в HDFS. Работа с HDFS через утилиту командной строки. Построение запросов через Spark к загруженным данным. Отличия от других баз данных. Создание ML-модели. Предсказание пола зрителя на основе данных телесмотрения.
Элементы контроля

Элементы контроля

  • неблокирующий Аудиторная работа
  • неблокирующий Решение бизнес-кейсов
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.35 * Аудиторная работа + 0.65 * Решение бизнес-кейсов
Список литературы

Список литературы

Рекомендуемая основная литература

  • Dean, J., & Ghemawat, S. (2008). Mapreduce: Simplified Data Processing on Large Clusters. Communications of the ACM, 51(1), 107–113. https://doi.org/10.1145/1327452.1327492
  • Kimball R., Margy Ross M. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. – John Wiley & Sons, 2013.
  • Luu H. Beginning Apache Spark 2: With Resilient Distributed Datasets, Spark SQL, Structured Streaming and Spark Machine Learning Library. – Berkeley: Apress, 2018.
  • Wittig M., Wittig A. Amazon Web Services in Action. Manning Publications, 2019.

Рекомендуемая дополнительная литература

  • Spark для профессионалов : современные паттерны обработки больших данных, , 2017
  • White T. Hadoop: The Definitive Guide. - O'Reilly Media, 2015.