• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Прикладная математика и информатика»

Методы и системы обработки больших данных

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс по выбору
Когда читается:
4-й курс, 1, 2 модуль

Преподаватель


Стаценко Максим Михайлович

Программа дисциплины

Аннотация

Данный курс призван дать фундаментальные знания в области хранения и обработки данных, для работы с которыми недостаточно одной машины со стандартными аппаратными характеристиками. Примерами таких данных могут быть логи пользователей определённого сервиса, коллекции медиа-файлов или статей Википедии. Сейчас эти подходы активно применяются в компаниях, для которых критично провести анализ больших объёмов данных в кратчайшие сроки. Это могут быть компании, владеющие: - поисковиками (например, Google, Яндекс, Microsoft, Yahoo! и др.), - социальными сетями и блогами (Facebook, Twitter, ВКонтакте, LinkedIn и др.), - рекомендательными сервисами (например, Кинопоиск от Яндекс). Практическую часть данного курса составляют программы, разрабатываемые с использованием фреймворков экосистемы Hadoop.
Цель освоения дисциплины

Цель освоения дисциплины

  • Овладение алгоритмами, парадигмами и инструментами для пакетной и потоковой обработки больших объёмов данных
  • Приобретение навыков проектирования архитектур, применения инструментов разработки для анализа больших объемов данных
  • Работать с Hadoop кластером
  • Писать MapReduce задачки на Hadoop
  • Писать запросы в Hive
  • Оптимизировать запросы в Hive, понимать узкие места и уметь их устранять.
  • Работать со Spark
  • Создавать микробатч процссинг на Spark
  • Использовать Kafka, как очередь сообщений
  • Использовать Cassandra, как Key-Value хранилище
Планируемые результаты обучения

Планируемые результаты обучения

  • Работать с Hadoop кластером.
  • Писать MapReduce задачки на Hadoop.
  • Писать запросы в Hive, оптимизировать запросы в Hive, понимать узкие места и уметь их устранять.
  • Использовать Kafka, как очередь сообщений
  • Использовать Cassandra, как Key-Value хранилище
  • Работать со Spark
  • Создавать микробатч процессинг на Spark
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Устройство Hadoop кластера
  • MapReduce основы
  • Алгоритмы на MapReduce
  • Hive
  • Hive продолжение
  • MPP на примере ClickHouse и GreenPlum
  • Spark введение
  • Spark продолжение
  • Spark Streaming
  • Kafka
  • Cassandra
  • Архитектуры хранилищ данных
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Необходимо получить получить информацию о блоках файла в хадупе + написать объяснение, что означает выдача команд
  • неблокирующий Домашнее задание 2
    Написать на Java простой MapReduce по подсчету слов с небольшой доп обработкой. Написать примитивный Count Word на MapReduceStreaming
  • неблокирующий Домашнее задание 3
    Написать на Java подсчет компонент связности в графе, на MapReduce
  • неблокирующий Домашнее задание 4
    10 запросов на Hive - написать оптимальный запрос к данным
  • неблокирующий Домашнее задание 5
    Переписать 10 запросов на Hive - на Spark. Сделать сравнение субъективной скорости
  • неблокирующий Домашнее задание 6
    Написать SparkStreaming процесс который читает из Kafka и пишет на Кластер
  • неблокирующий Домашнее задание 7
    Обучаем классификатор на Spark
  • неблокирующий Экзамен
    Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. Студент получает билет, который включает в себя два вопроса из программы экзамена – один вопрос по материалу лекций 1-6 и один вопрос по материалу лекций 7-12. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.1 * Домашнее задание 5 + 0.1 * Домашнее задание 3 + 0.1 * Домашнее задание 2 + 0.1 * Домашнее задание 6 + 0.3 * Экзамен + 0.1 * Домашнее задание 1 + 0.1 * Домашнее задание 7 + 0.1 * Домашнее задание 4
Список литературы

Список литературы

Рекомендуемая основная литература

  • White T. Hadoop: The Definitive Guide. - O'Reilly Media, 2015.

Рекомендуемая дополнительная литература

  • Jules S. Damji, Brooke Wenig, Tathagata Das, & Denny Lee. (2020). Learning Spark. O’Reilly Media.

Авторы

  • Оруджева Альбина Александровна