• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Modern data storage technologies

2025/2026
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Compulsory course
When:
2 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Курс направлен на знакомство с современными технологиями хранения данных. В нем рассматриваются алгоритмические и технологические аспекты реляционных и нереляционных баз данных, особенности сбора и хранения больших данных (big data).Курс "Современные технологии хранения данных" предлагает комплексное введение в аналитические и технологические аспекты работы с данными. Он охватывает широкий спектр тем, начиная с основ баз данных и заканчивая современными облачными решениями и технологиями распределенной обработки данных.▎Введение в аналитику и структура курсаКурс начинается с обзора аналитических подходов и структуры курса, что позволяет слушателям понять, какие навыки и знания они приобретут.Базы данных и СУБД- Обзор мирового и отечественного рынков БД: Изучение текущих тенденций и ключевых игроков на рынке баз данных.- Моделирование данных: Основы проектирования и оптимизации структур данных для эффективного хранения и обработки.Инструменты и технологии DWH- Изучение инструментов для построения хранилищ данных (DWH), что позволяет интегрировать данные из различных источников для анализа.SQL и получение данных (PostgreSQL)- Исследование данных на SQL: Практическое применение SQL для извлечения, анализа и манипуляции данными в PostgreSQL.- Расширения и модули PostgreSQL: Работа с JSON, расширение возможностей PostgreSQL для более сложных задач.PostgreSQL для администраторов и разработчиков- Углубленное изучение администрирования и разработки в PostgreSQL, включая оптимизацию производительности и безопасность.NoSQL и средства высокой доступности- MongoDB и Cassandra: Основы работы с NoSQL базами данных, их архитектура и области применения.- Средства высокой доступности: Обеспечение надежности и масштабируемости систем.Обзор систем балансировки, брокеров и сервисных сетей- Изучение систем, таких как Kafka и NATS, для эффективной обработки потоковых данных.- AMQP: RabbitMQ, ActiveMQ: Применение протоколов обмена сообщениями для интеграции приложений.Hadoop File System и облачные хранилища- Hadoop HDFS: Основы распределенного хранения данных.- S3, Ceph, GFS, NFS: Обзор современных облачных решений для хранения данных.- Blockchain: Потенциал блокчейн-технологий для безопасного хранения данных.MapReduce-подход и Apache Hadoop- Изучение подхода MapReduce для обработки больших данных с помощью Apache Hadoop.- ETL - подготовка и предобработка данных: Методы извлечения, трансформации и загрузки данных для анализа.- Контроль качества данных: Обзор методов обеспечения качества данных.Облачные платформы- Изучение возможностей AWS, Google Cloud, Azure и Яндекс.Облака для хранения и обработки больших объемов данных.NewSQL базы данных- GreenPlum, CockroachDb, NeonDB: Изучение NewSQL решений, объединяющих преимущества реляционных баз данных с масштабируемостью NoSQL.Курс предоставляет слушателям всесторонний обзор современных технологий хранения данных, позволяя им эффективно работать с большими объемами информации в различных контекстах.
Цель освоения дисциплины

Цель освоения дисциплины

  • Понимание основ аналитики данных: Изучение базовых концепций и подходов к анализу данных, а также структуры курса, чтобы заложить прочный фундамент для дальнейшего изучения.
  • Ознакомление с мировым и отечественным рынками баз данных: Получение представления о текущих тенденциях и основных игроках на рынке баз данных, что поможет в выборе оптимальных решений для бизнеса.
  • Моделирование данных: Освоение техник моделирования данных для проектирования эффективных и масштабируемых структур баз данных.
  • Изучение инструментов и технологий DWH (Data Warehouse): Понимание принципов построения хранилищ данных и использование соответствующих инструментов для интеграции и анализа больших объемов данных.
  • Углубленное изучение SQL и PostgreSQL: Овладение языком SQL для извлечения и анализа данных, а также изучение расширений и модулей PostgreSQL, включая работу с JSON.
  • Администрирование и разработка в PostgreSQL: Приобретение навыков администрирования баз данных и разработки приложений на базе PostgreSQL.
  • Изучение NoSQL технологий: Ознакомление с архитектурой и применением NoSQL баз данных, таких как MongoDB и Cassandra, для создания высокодоступных приложений.
  • Понимание систем распределенной обработки данных: Изучение систем балансировки нагрузки, брокеров сообщений и сервисных сетей, таких как Kafka и RabbitMQ.
  • Знакомство с облачными технологиями и хранилищами данных: Изучение возможностей облачных платформ (AWS, Google Cloud, Azure, Яндекс.Облако) и технологий хранения данных (Hadoop HDFS, S3, Ceph).
  • Изучение NewSQL баз данных: Понимание особенностей NewSQL систем, таких как GreenPlum, CockroachDb, NeonDB, для обеспечения высокой производительности и масштабируемости транзакционных систем.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студенты узнают о различных типах DWH, их архитектуре и компонентах, а также о методах проектирования эффективных и надежных хранилищ данных
  • Студенты познакомятся с инструментами и технологиями ETL, используемыми для извлечения данных из различных источников, их преобразования в согласованный формат и загрузки в DWH
  • Студенты научатся использовать различные модели данных, такие как модели "звезда", "снежинка" и хранилища данных с временной привязкой, для организации и представления данных в DWH
  • Студенты изучат методы управления данными и обеспечения качества данных в DWH, включая очистку данных, обработку дубликатов и определение правил проверки данных
  • Студенты получат практический опыт работы с популярными инструментами и технологиями DWH, такими как Informatica PowerCenter, Talend, Microsoft SQL Server Integration Services (SSIS) и Oracle Data Integrator
  • Студенты узнают, как использовать DWH для анализа данных и создания информативных отчетов, используя инструменты бизнес-аналитики и средства визуализации данных
  • Студенты изучат принципы обеспечения безопасности и управления DWH, включая управление доступом к данным, аудит и резервное копирование
  • Студенты будут осведомлены о последних тенденциях и передовом опыте в области DWH, таких как облачные хранилища данных, большие данные и озера данных
  • Студенты смогут объяснить, что такое большие данные и почему они важны в современном мире.
  • Участники смогут описать эволюцию систем хранения данных и выделить их ключевые особенности.
  • Слушатели поймут принципы работы распределённых файловых систем, в частности HDFS, и смогут перечислить их основные компоненты.
  • Студенты получат представление о различиях между файловыми и объектными хранилищами.
  • Участники смогут объяснить, где и как применяются HDFS и объектные хранилища в реальных задачах обработки больших данных.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в большие данные
    Цель занятия: познакомиться с основами больших данных через изучение устройства распределенной файловой системы HDFS.
  • Системная аналитика и моделирование данных в проектах DWH
  • Экосистема Hadoop и MapReduce
  • Hadoop File System. Hadoop HDFS
  • SQL поверх больших данных и инструменты визуализации больших данных
  • PostgreSQL для администраторов
  • NoSQL и средства высокой доступности для разработчиков
  • NewSQL
  • Введение в Spark
  • Продвинутый Spark
  • Approximate-алгоритмы для больших данных
  • Потоковая обработка данных (Kafka, Flink)
  • Основы распределённой СУБД Apache Cassandra
Элементы контроля

Элементы контроля

  • неблокирующий home work
  • неблокирующий Test in class
    В начале или в конце урока, во время семинара будут даны тексты для проверки изученного материала.
  • неблокирующий Final certification - in-person exam
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.2 * Final certification - in-person exam + 0.05 * Test in class + 0.05 * Test in class + 0.2 * home work + 0.5 * home work
Список литературы

Список литературы

Рекомендуемая основная литература

  • 16562 - Cassandra. Полное руководство. 2-е изд. - Д.Карпентер - ДМК Пресс - 2017 - https://hse.alpinadigital.ru/document/16562 - Alpina
  • 16667 - Hadoop в действии - Ч.Лэм - ДМК Пресс - 2015 - https://hse.alpinadigital.ru/document/16667 - Alpina
  • 22541 - Проектирование событийно-ориентированных систем в Apache Kafka - Б.Стопфорд - ДМК Пресс - 9785604241219 - 2019 - https://hse.alpinadigital.ru/document/22541 - Alpina
  • 22561 - Spark в действии - Ж.Перрен - ДМК Пресс - 9785970608791 - 2021 - https://hse.alpinadigital.ru/document/22561 - Alpina
  • 33905 - Kafka в действии - В.Гамов; Д.Клейн; Д.Скотт - ДМК Пресс - 9785937001184 - 2022 - https://hse.alpinadigital.ru/document/33905 - Alpina
  • Agile web development with Rails 4, Ruby, S., 2013
  • Agile-маркетинг. Хакерские практики для эффективного бизнеса, пер. с англ. И. Лейко ; науч. ред. Ю. Тегель, 270 с., Бринкер, С., 2019
  • Antony, B., Boudnik, K., Adams, C., Shao, B., Lee, C., & Sasaki, K. (2016). Professional Hadoop. Indianapolis, IN: Wrox. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1233763
  • Apache Kafka. Потоковая обработка и анализ данных. 2-е изд. - 978-5-4461-2288-2 - Гвен Шапира, Тодд Палино, Раджини Сиварам, Крит Петти - 2023 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/390221 - 390221 - iBOOKS
  • ASP.NET Core : разработка приложений MVC, Docker, Azure, Visual Studio, C#, JavaScript, TypeScript и Entity, Чамберс, Дж., 2018
  • Beginning PHP5, Apache, and MySQL web development, , 2005
  • Bhattacharya, A., & Kumar, A. (2014). An Approximate Inner Bound to the QoS Aware Throughput Region of a Tree Network under IEEE 802.15.4 CSMA/CA and Application to Wireless Sensor Network Design.
  • Brajesh Mishra. (2020). Big Data Analysis Using Hadoop Map Reduce. https://doi.org/10.26562/irjcs.2020.v0705.005
  • Carpenter, J., & Hewitt, E. (2016). Cassandra: The Definitive Guide : Distributed Data at Web Scale (Vol. Second edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1271661
  • Complete publicity plans : how to create publicity that will spark media exposure and excitement, Beckwith, S., 2003
  • Computer Science : основы программирования на Java, ООП, алгоритмы и струкуры данных, Седжвик, Р., 2018
  • DAMA-DMBOK : data management body of knowledge, , 2017
  • DAMA-DMBOK: свод знаний по управлению данными, , 2023
  • Data analysis and approximate models : model choice, location-scale, analysis of variance, nonparametric regression and image analysis, Davies, L., 2014
  • Deka, G. C. (2017). NoSQL : Database for Storage and Retrieval of Data in Cloud. Boca Raton, FL: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1521297
  • Digital restoration from start to finish : how to repair old and damaged photographs, Ctein, ., 2017
  • Hadoop : the definitive guide, White, T., 2012
  • Ilya Ganelin, Ema Orhian, Kai Sasaki, & Brennon York. (2016). Spark : Big Data Cluster Computing in Production. Wiley.
  • Kafka : a guide for the perplexed, Koelb, C., 2010
  • Kafka Streams и ksqlDB : данные в реальном времени, Сеймур, М., 2023
  • Kafka в действии, Скотт, Д., 2022
  • Lin, J., & Dyer, C. (2010). Data-Intensive Text Processing with MapReduce. Morgan & Claypool Publishers.
  • Marianne Baxter, & Robert G. King. (1999). Measuring Business Cycles: Approximate Band-Pass Filters For Economic Time Series. The Review of Economics and Statistics, (4), 575. https://doi.org/10.1162/003465399558454
  • Nabi, Z. (2016). Pro Spark Streaming : The Zen of Real-Time Analytics Using Apache Spark. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1174432
  • Narkhede, N., Shapira, G., & Palino, T. (2016). Kafka: The Definitive Guide : Real-Time Data and Stream Processing at Scale: Vol. First edition. O’Reilly Media.
  • NoSQL : новая методология разработки нереляционных баз данных, Садаладж, П. Дж., 2016
  • PostgreSQL. Разработка баз данных : учебник / М. Ф. Ванина, А. Г. Ерохин, Н. В. Тутова [и др.]. — Москва : Русайнс, 2023. — 227 с. — ISBN 978-5-466-03410-3. — URL: https://book.ru/book/950185 (дата обращения: 04.07.2025). — Текст : электронный.
  • Practical teaching methods, K-6 : sparking the flame of learning, Wilkinson, P. F., 2003
  • RESTful Web API. Паттерны и практики - 978-601-08-4867-2 - Амундсен Майк - 2025 - Астана: Спринт Бук - https://ibooks.ru/bookshelf/399817 - 399817 - iBOOKS
  • Spark для профессионалов : современные паттерны обработки больших данных, , 2017
  • SPARK для профессионалов: современные паттерны обработки больших данных, , 2017
  • Valentine, C. (2014). Hadoop : 94 Most Asked Questions —— What You Need to Know. Emereo Publishing.
  • White T. Hadoop: The Definitive Guide. - O'Reilly Media, 2015.
  • White, T. (2011). Hadoop : The Definitive Guide: Vol. 2nd ed., updated. Yahoo Press.
  • Администрирование WEB - сервера Apache и руководство по электронной коммерции : пер. с англ., Хокинс, С., 2001
  • Базы данных : курс лекций и материалы для практических занятий, Карпова, И. П., 2013
  • Базы данных. Проектирование моделей данных : учебник для вузов, Гринченко, Н. Н., 2024
  • Введение в системный анализ, , 2017
  • Введение в теорию систем и системный анализ : Учебно-методическое пособие, Рейнов, Ю.И., 2007
  • Григорьев, Ю. А. Реляционные базы данных и системы NoSQL : учебное пособие / Ю. А. Григорьев, А. Д. Плутенко, О. Ю. Плужникова. — Благовещенск : АмГУ, 2018. — 424 с. — ISBN 978-5-93493-308-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/156492 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Домбровская, Г. Оптимизация запросов PostgreSQL / Г. Домбровская, Б. Новиков, А. Бейликова , перевод с английского Д. А. Беликова. — Москва : ДМК Пресс, 2021. — 278 с. — ISBN 978-5-97060-963-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241103 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Забродин, А. В. Основы проектирования информационных систем с помощью языка UML : учебное пособие / А. В. Забродин, В. П. Бубнов. — Санкт-Петербург : ПГУПС, 2018. — 46 с. — ISBN 978-5-7641-1133-9. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/111721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Изучаем Spark : молниеносный анализ данных, Карау, Х., 2015
  • Карпентер, Д. Cassandra. Полное руководство : руководство / Д. Карпентер, Э. Хьюитт , перевод с английского А. А. Слинкина. — 2-е изд. — Москва : ДМК Пресс, 2017. — 400 с. — ISBN 978-5-97060-453-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/93577 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Малков, О. Б. Работа с СУБД PostgreSQL : учебное пособие / О. Б. Малков, М. П. Маркова, М. В. Девятерикова. — Омск : ОмГТУ, 2023. — 175 с. — ISBN 978-5-8149-3707-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/421547 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Мамедли, Р. Э. Большие данные и NoSQL базы данных : учебное пособие для вузов / Р. Э. Мамедли, Т. Б. Казиахмедов. — Санкт-Петербург : Лань, 2024. — 92 с. — ISBN 978-5-507-49873-4. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/434051 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Мартишин С.А., Симонов В.Л., Храпченко М.В. - Базы данных: Работа с распределенными базами данных и файловыми системами на примере MongoDB и HDFS с использованием Node.js, Express.js, Apache Spark и Scala - 978-5-16-015133-5 - НИЦ ИНФРА-М - 2023 - https://znanium.ru/catalog/product/1876807 - 1876807 - ZNANIUM
  • Наместников, А. М. Базы данных. Практический курс : учебное пособие : в 2 частях / А. М. Наместников. — Ульяновск : УлГТУ, 2017 — Часть 1 : Объектно-реляционные базы данных на примере PostgreSQL 9.5 — 2017. — 113 с. — ISBN 978-5-9795-1743-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/165100 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Пользовательские истории : искусство гибкой разработки ПО, Паттон, Дж., 2019
  • Практическое применение нотации визуального моделирования UML в бизнес процессах : учебное пособие / Д. В. Шлаев, С. Г. Шматко, Ю. В. Орел, А. А. Сорокин. — Ставрополь : СтГАУ, 2022. — 72 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/323537 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Разработка базы данных общего назначения с моделью, обеспечивающей малое время ответа : дис. ... канд. технических наук : 05.13.01, Долгов, Д. Н., 1981
  • Реляционные базы данных : практ. приемы оптимальных решений, Мирошниченко, Г. А., 2005
  • Романова, И. П. Базы данных: работа с PostgreSQL : учебное пособие / И. П. Романова, П. С. Романов. — Москва : МУИВ, 2023. — 193 с. — ISBN 978-5-9580-0705-9. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/443078 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Саймон, Р. Администрирование PostgreSQL 9. Книга рецептов : руководство / Р. Саймон, К. Ханну , перевод Е. В. Самохвалова. — Москва : ДМК Пресс, 2013. — 368 с. — ISBN 978-5-94074-750-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/39995 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Системы базы данных : полный курс : пер. с англ., Гарсиа-Молина, Г., 2003
  • Создание микросервисов. 2-е изд. . - 978-5-4461-1145-9 - Ньюмен Сэм - 2023 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/390019 - 390019 - iBOOKS
  • Шёниг, Г. -. PostgreSQL 11. Мастерство разработки / Г. -. Шёниг , перевод с английского А. А. Слинкина. — Москва : ДМК Пресс, 2020. — 352 с. — ISBN 978-5-97060-671-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131714 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Эрик, Р. Семь баз данных за семь недель. Введение в современные базы данных и идеологию NoSQL / Р. Эрик, Р. У. Джим. , под редакцией Ж. Картер , перевод с английского А. А. Слинкин. — Москва : ДМК Пресс, 2013. — 384 с. — ISBN 978-5-94074-866-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/58690 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Agile : оценка и планирование проектов, Кон, М., 2021
  • An, D., & Lin, L. (2019). Quantum linear system solver based on time-optimal adiabatic quantum computing and quantum approximate optimization algorithm. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1909.05500
  • Frampton M. Big Data Made Easy: A Working Guide to the Complete Hadoop Toolset. - Apress, 2015. - ЭБС Books 24x7.
  • Java : руководство для начинающих, Шилдт, Г., 2023
  • Jules S. Damji, Brooke Wenig, Tathagata Das, & Denny Lee. (2020). Learning Spark. O’Reilly Media.
  • Kafkas "Utreil" und die Literaturtheorie : zehn Modellanalysen, , 2002
  • MySQL 8 для больших данных : эффективная обработка данных с помощью MySQL 8, Hadoop, NoSQL API и других инструментов для больших данных, , 2018
  • NoSQL : database for storage and retrieval of data in cloud, , 2017
  • Storing and managing big data NoSQL, Hadoop and more : high impact strategies - what you need to know: definitions, adoptions, impact, benefits, maturity, vendors, Roebuck, K., 2011
  • The spark that lit the revolution : Lenin in London and the politics that changed the world, Henderson, R., 2020
  • Автоматизация проектирования вычислительных систем. Языки, моделирование и базы данных, , 1979
  • Адаптивные алгоритмы управления распределением нагрузки в многосерверных системах : автореф. дис. ... канд. технических наук : 05.13.15, Калашников, Е. И., 2010
  • Администрирование Microsoft SQL Server 2000 : учеб. курс MCSA/MCSE, MCDBA: экзамен 70-228: офиц. пособие Microsoft для самостоят. подгот., , 2006
  • Алгоритмы : введение в разработку и анализ, Левитин, А. В., 2018
  • Алгоритмы : разработка и применение, Клейнберг, Дж., 2018
  • Базы данных : учебник и практикум для вузов, Нестеров, С. А., 2020
  • Большие данные : принципы и практика построения масштабируемых систем обработки данных в реальном времени, Марц, Н., 2017
  • Большие данные : революция, которая изменит то, как мы живем, работаем и мыслим, Майер-Шенбергер, В., 2014
  • Большие данные в образовании: анализ данных как основание принятия управленческих решений : сб. науч. ст. I Международной конференции, 15 окт. 2020 г., Москва, , 2020
  • Введение в реляционные базы данных, Кириллов, В. В., 2012
  • Мартишин С.А., Симонов В.Л., Храпченко М.В. - Базы данных: Работа с распределенными базами данных и файловыми системами на примере MongoDB и HDFS с использованием Node.js, Express.js, Apache Spark и Scala - 978-5-16-019845-3 - НИЦ ИНФРА-М - 2024 - https://znanium.ru/catalog/product/2139860 - 2139860 - ZNANIUM

Авторы

  • Титова Наталия Николаевна
  • Сластников Сергей Александрович