• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Потоковая обработка больших данных

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс по выбору (Программирование и анализ данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 4 модуль
Формат изучения: с онлайн-курсом
Прогр. обучения: Программирование и анализ данных
Язык: русский
Кредиты: 4

Программа дисциплины

Аннотация

Существует значительное количество задач, когда нам нужно не просто обработать огромный объем данных, но и обработать его как можно быстрее. Задержки в прогнозировании цунами могут стоить жизни людям. Задержки в прогнозировании пробок требуют дополнительного времени. Рекламные объявления, основанные на активности последних пользователей, в десять раз популярнее. Однако одних методов потоковой обработки недостаточно для создания полноценной системы реального времени. Например, для создания системы рекомендаций нам необходимо иметь хранилище, которое позволяет хранить и извлекать данные для пользователя с минимальной задержкой. Эти базы данных должны быть способны хранить сотни терабайт данных, обрабатывать миллиарды запросов в день и обеспечивать 100% бесперебойную работу. Базы данных NoSQL обычно используются для решения этой сложной проблемы. После того, как вы закончите этот курс, вы освоите системы обработки потоков и базы данных NoSQL. Вы также узнаете, как использовать такие популярные и мощные системы, как Kafka, Cassandra и Redis. Чтобы получить максимальную отдачу от этого курса, вам нужно знать Hadoop и SQL. Вы также должны иметь практические знания bash, Python и Spark.
Цель освоения дисциплины

Цель освоения дисциплины

  • освоение системы обработки потоков и базы данных NoSQL. Получение навыка использования систем Kafka, Cassandra и Redis.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные определения и понятия потоковой обработки больших данных
  • Знает основы обработки данных в реальном времени
  • работает с Spark Streaming. Знает основные понятия и процессы.
  • работает с NoSQL. Cassandra. Знает основные понятия и процессы NoSQL. Cassandra
  • работает с NoSQL. Redis. Знает основные понятия и процессы NoSQL. Redis
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в курс «Приложения для работы с большими данными: потоковая передача в реальном времени»
  • Основы обработки данных в реальном времени
  • Spark Streaming
  • NoSQL. Cassandra
  • NoSQL. Redis
Элементы контроля

Элементы контроля

  • неблокирующий решение задач курса
  • блокирующий экзамен
    Экзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * решение задач курса + 0.5 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Zimmermann, T., Menzies, T., & Bird, C. (2015). The Art and Science of Analyzing Software Data. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=593414

Рекомендуемая дополнительная литература

  • Kelleher, J. D. (2019). Deep Learning. Cambridge: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2234376