• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы и технологии работы с корпоративными структурированными данными. Корпоративное хранилище данных. Отчеты и OLAP

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 1, 2 модуль

Преподаватель

Программа дисциплины

Аннотация

Содержание дисциплины «Методы и технологии работы с корпоративными структурированными данными. Корпоративное хранилище данных. Отчеты и OLAP» охватывает круг вопросов, связанных с обработкой структурированных данных в информационно-аналитических системах на всех этапах жизненного цикла от сбора и доставки первичных данных до визуализации аналитических показателей, отвечает за формирование у обучающихся знаний о системам типа «хранилище данных», «business intelligence», классических и современных подходах по их построению, способности анализировать профессиональную информацию и подготавливать материалы по результатам исследований в виде обзоров, рефератов, отчетов, докладов. Также настоящая дисциплина включает углубленное изучение процессов интеграции данных, отдельно рассматриваются вопрос разработки ETL-процессов. Рассматриваются вопросы о роли и месте метаданных и процессах обеспечения качества данных в информационно-аналитических системах. Обучающие также на практике знакомятся с современными инструментами по созданию NoSQL-решений по работе с структурированными данными.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Методы и технологии работы с корпоративными структурированными данными. Корпоративное хранилище данных. Отчеты и OLAP являются приобретение комплекса теоретических знаний и методологических основ в области применения методов работы с корпоративными структурированными данными, а также практических навыков их применения при решении задачи построения информационно-аналитических систем.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знание основных понятий в области хранилищ данных.
  • Знание типов моделей данных и способ их создания. Умение создавать модели данных по методологии Data Vault.
  • Знание основных шаблонов проектирования процессов интеграции данных и умение их применять на практике.
  • Умение моделировать витрины данных.
  • Умение создавать отчеты в среде Congnos Analytics 11.
  • Знание понятия метаданных и их классификация.
  • Знание метрик качества данных.
  • Знание классификации NoSQL – решений и области их применения.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в хранилища данных.
    Определение понятия хранилище данных. Подходы Била Инмона и Ральфа Кимбала по созданию хранилищ данных. Этапы и участники типового процесса создания хранили-ща данных.
  • Моделирование данных для хранилища данных.
    Уровни моделирования данных в хранилище данных. Инструменты моделирования. Методы создания моделей данных: ER-модели, многомер-ное моделирование, DataVault, использование индустри-альных моделей данных. Структуры для хранение исторических данных.
  • Процесс интеграции данных. ETL- процессы: методы проектирования и инструменты реализации.
    Что такое интеграция данных? Виды интеграции: консолидация, федерализация. Этапы жизненного цикла создания системы интеграции данных. Способы взаимодействия с источниками данных. Инструменты создания систем интеграции данных. Типовые решения создании ETL-процессов для хранилища данных, созданных с при-менением подходов DataVault, Многомерное моделирование. Архитектура ETL-процессов для индустриальных моделей IBM. Популярные форматы данных (ODBC, JDBC, XML, JSON, CSV). Инструментысоздания ETL – процессов: IBM Infosphere Datastage, Talend Open Studio, Pentaho DI.
  • Многомерные модели данных, OLAP-кубы.
    Виды OLAP. Язык запросов MDX.
  • Инструменты создания BI-решений на примере CognosAnalytics 11.
    Обзор инструментов создания BI-решений. Этапы процесса создания BI-решения. Общие сведения о продукте CognosAnalytics 11. Основные возможности CognosAnalytics 11.
  • Метаданные и их место в хранилище данных.
    Виды метаданных: бизнес метаданные, технические мета-данные и операционные метаданные. Роль метаданных в процессе создания и сопровождения систем интеграции данных. Инструменты ведения метаданных.
  • Процесс обеспечения качества данных. Метрики качества данных.
    Постановка задачи обеспечения качества данных. Процесс обеспечения качества данных. Метрики качества данных. Задачи профилирование данных, стандартизации, дедупликации. Инструменты создания систем обеспечения качества данных.
  • NoSQL-решения.
    Типы баз данных: «ключ-значение» (key-valuestore), документно-ориентированные (documentstore), хранилища семейств колонок (columndatabase), графовые базы данных (graphdatabase). Преимущества и недостатки таких хранилищ по сравнению с классическими решениями – реляционными СУБД. Место NoSQL в хранилищах данных.
Элементы контроля

Элементы контроля

  • неблокирующий Практические работы 1
  • блокирует часть оценки/расчета Экзамен 1
    Экзамен проводится в устной форме (опрос по материалам курса). Экзамен проводится на платформе meet.miem.hse.ru. К экзамену необходимо подключиться согласно расписанию экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка meet.miem.hse.ru. Для участия в экзамене студенту необходимо явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. При долговременном нарушении связи (более 10 минут) студенту может быть предложен дополнительный вопрос. Процедура пересдачи аналогична процедуре сдачи.
  • неблокирующий Практические работы 2
  • блокирует часть оценки/расчета Экзамен 2
    Экзамен проводится в устной форме (опрос по материалам курса). Экзамен проводится на платформе meet.miem.hse.ru. К экзамену необходимо подключиться согласно расписанию экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка meet.miem.hse.ru. Для участия в экзамене студенту необходимо явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. При долговременном нарушении связи (более 10 минут) студенту может быть предложен дополнительный вопрос. Процедура пересдачи аналогична процедуре сдачи.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.5 * Практические работы 1 + 0.5 * Экзамен 1
  • Промежуточная аттестация (2 модуль)
    0.5 * Практические работы 2 + 0.5 * Экзамен 2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Агальцов В.П. Базы данных. В 2-х кн. Книга 2. Распределенные и удаленные базы данных : учебник / В.П. Агальцов. — М. : ИД «ФОРУМ» : ИНФРА-М, 2017. — 271 с. : ил. — (Высшее образование). - Режим доступа: http://znanium.com/catalog/product/652917

Рекомендуемая дополнительная литература

  • Майер-Шенбергер В., Кукьер К. - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Издательство "Манн, Иванов и Фербер" - 2014 - 240с. - ISBN: 978-5-91657-936-9 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/62171