2022/2023

Обработка и анализ больших массивов данных
Статус:
Маго-лего
Когда читается:
1, 2 модуль
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Преподаватели:
Бардуков Анатолий Андреевич
Язык:
русский
Кредиты:
6
Контактные часы:
26
Программа дисциплины
Аннотация
На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям. Так как наш курс длится всего два модуля, а тема BigData настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов
Цель освоения дисциплины
- По результатам курса студенты получат базовое представление о распределенной обработке больших данных и будут уметь пользоваться основным инструментами в данной области
Содержание учебной дисциплины
- Универсальные технологические основы
- SQL, NoSQL, MPP
- DWH и ETL
- Hadoop-стек
- Spark RDD
- SparkSQL и Spark DataFrame API, Feature Engineering
- Spark ML и самописный ML на Spark
- Эксперименты и продакшн ML моделей
- Оптимизация работы с моделями - обучение и инференс
- Приближенный поиск ответа
- Потоковая обработка данных с помощью Spark Streaming и Kafka
- Потоковая обработка данных с помощью Flink