Delivered at:: Big Data and Information Retrieval School

Course type:: Elective course

When:: 4 year, 1-3 module

Instructor

Ивченко Олег Николаевич

Полная версия программы учебной дисциплины

Аннотация

Данный курс призван дать фундаментальные знания в области хранения и обработки данных, для работы с которыми недостаточно одной машины со стандартными аппаратными характеристиками. Примерами таких данных могут быть логи пользователей определённого сервиса, коллекции медиа-файлов или статей Википедии. Сейчас эти подходы активно применяются в компаниях, для которых критично провести анализ больших объёмов данных в кратчайшие сроки. Это могут быть компании, владеющие: - поисковиками (например, Google, Яндекс, Microsoft, Yahoo! и др.), - социальными сетями и блогами (Facebook, Twitter, ВКонтакте, LinkedIn и др.), - рекомендательными сервисами (например, Кинопоиск от Яндекс). Практическую часть данного курса составляют программы, разрабатываемые с использованием фреймворков экосистемы Hadoop.

Цель освоения дисциплины

Овладение алгоритмами, парадигмами и инструментами для пакетной и потоковой обработки больших объёмов данных
Приобретение навыков проектирования архитектур, применения инструментов разработки для анализа больших объемов данных
Работать с Hadoop кластером
Писать MapReduce задачки на Hadoop
Писать запросы в Hive
Оптимизировать запросы в Hive, понимать узкие места и уметь их устранять.
Работать со Spark
Создавать микробатч процссинг на Spark
Использовать Kafka, как очередь сообщений
Использовать Cassandra, как Key-Value хранилище

Планируемые результаты обучения

Работать с Hadoop кластером.
Писать MapReduce задачки на Hadoop.
Писать запросы в Hive, оптимизировать запросы в Hive, понимать узкие места и уметь их устранять.
Использовать Kafka, как очередь сообщений
Использовать Cassandra, как Key-Value хранилище
Работать со Spark
Создавать микробатч процессинг на Spark

Содержание учебной дисциплины

Введение
Распределённые файловые системы. HDFS
Java для BigData-инженеров
MapReduce
SQL поверх больших данных
Пакетная обработка данных. Apache Spark
Real-time обработка данных
NoSQL и большие данные
Администрирование сервисов обработки больших данных

Элементы контроля

Домашнее задание 1
Контрольная работа 1
Работа на семинарах 1
Письменный экзамен
Домашнее задание 2
Домашнее задание 3
Домашнее задание 4
Домашнее задание 5
Домашнее задание 6
Контрольная работа 2
Контрольная работа 3
Контрольная работа 4
Работа на семинарах 2

Промежуточная аттестация

2021/2022 учебный год 3 модуль

Bachelor’s Programme 'Applied Mathematics and Information Science'

Methods and Systems for Processing Big Data