Магистратура
2018/2019
Большие данные
Статус:
Курс по выбору (Анализ больших данных в бизнесе, экономике и обществе)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент математики
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Новиков Борис Асенович
Прогр. обучения:
Анализ больших данных в бизнесе, экономике и обществе
Язык:
русский
Кредиты:
4
Контактные часы:
60
Программа дисциплины
Аннотация
Целью освоения дисциплины «Большие данные» является формирование у студентов теоретических знаний и практических навыков работы с большими данными. Курс посвящен программному решению проблемы надежного масштабируемого хранения и обработки данных и знакомит с особенностями работы с большими данными. Студенты познакомятся с различными моделями представления и обработки данных, а также освоят работу с контейнерами.
Цель освоения дисциплины
- формирование у студентов теоретических знаний и практических навыков работы с большими данными
Планируемые результаты обучения
- Демонстрирует знание необходимости распределенных файловых систем, показывает знание партиционарования, шардирования, разбиения, сегментирования
- Знает требования приложений к СУБД, строгую предопределенную схему и нормализацию, знает пути масштабирования и архитектуру разделяемой памяти
- Демонстрирует знание понятий согласованности и линеаризуемости изменений, знает модели согласованности и алгоритмы консенсуса
- Знает глобально распределенные БД, показывает знание пакетной и потоковой обработки
Содержание учебной дисциплины
- Физическое хранение данных, эволюция данныхФизическое хранение данных, распределённые файловые системы DFS. Необходимость распределенных файловых систем. Файловая система. Метаинформация. Локальные файловые системы. Шаблоны доступа. Журнально-структурированные файлы. Компоненты DFS. Репликация. Google File System. Hadoop File System. Collossus. Хранилища ключ-значение, партиционирование ключей, эволюция данных Партиционирование (partitioning), шардирование (sharding), разбиение, сегментирование. Партиции и узлы. Amazon Dynamo. Партиционирование в Amazon Dynamo. Файловая система GlusterFS.
- Колоночные СУБД и репликация данныхКолоночные СУБД: BigTable, Cassandra Требования приложений к СУБД. Cтрогая предопределённая схема и нормализация. Online transaction processing. Online analytical processing. Колоночные СУБД. Bigtable. Cassandra. Репликация данных Пути для масштабирования. Архитектура разделяемой памяти. Репликация. Репликация с лидером. Синхронная и асинхронная репликация. Обработка ошибок.
- Распределенные системы, алгоритмы консенсусаСогласованность и транзакции в распределённых системах Согласованность и линериализуемость изменений. САР теорема. Модели согласованности. Слабая согласованность. Двухфазное подтверждение. Percolator Алгоритмы консенсуса Алгоритмы консенсуса. Репликация и отложенная согласованность. Задача консенсуса. Paxos. Алгоритмы консенсуса: Raft
- Глобально распределенная БД. Пакетная обработкаGoogle Spanner Google Spanner: глобально распределённая БД. Paxos. Двухфазное подтверждение. Внешняя согласованность. Spanner и SQL Пакетная обработка: Map-Reduce, Spark Пакетная и потоковая обработка. Map-Reduce. Мотивация. Apache Hadoop. Apache Spark. Унифицированная модель обработки.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.167 * Домашнее задание 1 + 0.166 * Домашнее задание 2 + 0.167 * Домашнее задание 3 + 0.5 * Экзамен
Список литературы
Рекомендуемая основная литература
- Hurwitz, J., Kaufman, M., Halper, F., & Nugent, A. (2013). Big Data For Dummies. Hoboken, N.J.: For Dummies. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=565511
- Pedrycz, W., & Chen, S.-M. (2017). Data Science and Big Data: An Environment of Computational Intelligence. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1489226
Рекомендуемая дополнительная литература
- Mahmood, Z. (2016). Data Science and Big Data Computing : Frameworks and Methodologies. Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1203573