• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Methods and Systems for Processing Big Data

2021/2022
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
4 year, 1-3 module

Instructor


Ивченко Олег Николаевич

Программа дисциплины

Аннотация

Данный курс призван дать фундаментальные знания в области хранения и обработки данных, для работы с которыми недостаточно одной машины со стандартными аппаратными характеристиками. Примерами таких данных могут быть логи пользователей определённого сервиса, коллекции медиа-файлов или статей Википедии. Сейчас эти подходы активно применяются в компаниях, для которых критично провести анализ больших объёмов данных в кратчайшие сроки. Это могут быть компании, владеющие: - поисковиками (например, Google, Яндекс, Microsoft, Yahoo! и др.), - социальными сетями и блогами (Facebook, Twitter, ВКонтакте, LinkedIn и др.), - рекомендательными сервисами (например, Кинопоиск от Яндекс). Практическую часть данного курса составляют программы, разрабатываемые с использованием фреймворков экосистемы Hadoop.
Цель освоения дисциплины

Цель освоения дисциплины

  • Овладение алгоритмами, парадигмами и инструментами для пакетной и потоковой обработки больших объёмов данных
  • Приобретение навыков проектирования архитектур, применения инструментов разработки для анализа больших объемов данных
  • Работать с Hadoop кластером
  • Писать MapReduce задачки на Hadoop
  • Писать запросы в Hive
  • Оптимизировать запросы в Hive, понимать узкие места и уметь их устранять.
  • Работать со Spark
  • Создавать микробатч процссинг на Spark
  • Использовать Kafka, как очередь сообщений
  • Использовать Cassandra, как Key-Value хранилище
Планируемые результаты обучения

Планируемые результаты обучения

  • Работать с Hadoop кластером.
  • Писать MapReduce задачки на Hadoop.
  • Писать запросы в Hive, оптимизировать запросы в Hive, понимать узкие места и уметь их устранять.
  • Использовать Kafka, как очередь сообщений
  • Использовать Cassandra, как Key-Value хранилище
  • Работать со Spark
  • Создавать микробатч процессинг на Spark
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Распределённые файловые системы. HDFS
  • Java для BigData-инженеров
  • MapReduce
  • SQL поверх больших данных
  • Пакетная обработка данных. Apache Spark
  • Real-time обработка данных
  • NoSQL и большие данные
  • Администрирование сервисов обработки больших данных
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Контрольная работа 1
  • неблокирующий Работа на семинарах 1
  • неблокирующий Письменный экзамен
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Домашнее задание 4
  • неблокирующий Домашнее задание 5
  • неблокирующий Домашнее задание 6
  • неблокирующий Контрольная работа 2
  • неблокирующий Контрольная работа 3
  • неблокирующий Контрольная работа 4
  • неблокирующий Работа на семинарах 2
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль