• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2022/2023

Обработка и анализ больших массивов данных

Статус: Маго-лего
Когда читается: 1, 2 модуль
Онлайн-часы: 20
Охват аудитории: для своего кампуса
Преподаватели: Бардуков Анатолий Андреевич
Язык: русский
Кредиты: 6
Контактные часы: 26

Программа дисциплины

Аннотация

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям. Так как наш курс длится всего два модуля, а тема BigData настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов
Цель освоения дисциплины

Цель освоения дисциплины

  • По результатам курса студенты получат базовое представление о распределенной обработке больших данных и будут уметь пользоваться основным инструментами в данной области
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Универсальные технологические основы
  • SQL, NoSQL, MPP
  • DWH и ETL
  • Hadoop-стек
  • Spark RDD
  • SparkSQL и Spark DataFrame API, Feature Engineering
  • Spark ML и самописный ML на Spark
  • Эксперименты и продакшн ML моделей
  • Оптимизация работы с моделями - обучение и инференс
  • Приближенный поиск ответа
  • Потоковая обработка данных с помощью Spark Streaming и Kafka
  • Потоковая обработка данных с помощью Flink
Элементы контроля

Элементы контроля

  • неблокирующий O_weeklyHW
  • неблокирующий O_finalProject
  • неблокирующий O_optionalTasks
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.3 * O_finalProject + 0.3 * O_optionalTasks + 0.4 * O_weeklyHW

Авторы

  • Бардуков Анатолий Андреевич
  • Литвишкина Ален Витальевна