• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Methods and Tools for Big Data Processing

2025/2026
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Compulsory course
When:
2 year, 2, 3 module

Instructor

Программа дисциплины

Аннотация

Курс посвящён современным подходам и инструментам анализа больших данных с фокусом на клиентскую аналитику и задачи ритейла. В рамках курса рассматриваются основные платформы для анализа онлайн-данных, методы прогностической аналитики, построение моделей и визуализация данных. Особое внимание уделяется текстовой аналитике: от упрощённых представлений (TF-IDF, word2vec) до классификации и извлечения сущностей. Осваиваются задачи анализа временных рядов (ARIMA, SARIMA, скользящее окно), оптимизации запасов и ассортимента, а также кластеризация и сегментация в ритейле. Практические навыки включают работу с SQL и NoSQL СУБД (PostgreSQL, DWH), расширения PostgreSQL, обработку JSON, использование BI-инструментов (Power BI, Datalens, Superset), а также проведение A/B тестирования. Курс сочетает теоретические основы с практическими заданиями для формирования компетенций в области анализа больших данных и принятия решений на их основе.
Цель освоения дисциплины

Цель освоения дисциплины

  • Обучение созданию проекта, определению и исследованию источника данных
  • Овладение методами прогнозного моделирования
  • Проработка методов кластерного анализа
  • Применение нейросетевых алгоритмов для решения задач управления
Планируемые результаты обучения

Планируемые результаты обучения

  • Анализирует данные с помощью нейронных сетей.
  • Выявляет наиболее эффективный метод анализа данных для конкретной задачи.
  • Использует основные возможности SAS Interprise Miner для создания проекта, определения и исследования источника данных.
  • Классифицирует и выявляет особенности методов анализа данных.
  • Оценивает и сравнивает построенные модели
  • Применяет возможности SAS Interprise Miner для кластерного анализа.
  • Применяет возможности SAS Interprise Miner для прогнозного моделирования.
  • Применяет возможности SAS Interprise Miner для работы с регрессиоными моделями.
  • Решает задачу анализа данных с помощью деревьев решений.
  • Синтезирует посредством симуляции в выбранной программной среде нейросетевой алгоритм управления для типовой системы.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Обзор Big-Data. Методы и средства. Введение в клиентскую аналитику
  • Клиентская аналитика в Онлайн. Рассмотрение платфор для анализа онлайн даннных
  • Построение моделей и визуализация данных
  • Прогностическая аналитика и взаимоотношения с клиентами
  • Инструменты и методы текстовой аналитики
  • Упрощенное представление текста. TF-IDF, word2vec
  • Классификация текстов и извлечение именованных сущностей с помощью нейронных сетей
  • Задачи анализа данных в розничных сетях продаж товаров. Введение в задачи анализа данных в ритейле. Прогнозирование спроса
  • Временные ряды. ARIMA, SARIMA. Плавающее (скользящее) окно
  • Описательная аналитика в Ритейл: кластеризация магазинов, сегментация товаров, восстановление спроса.
  • Инструменты и технологии DWH. (SQL+ NoSQL и средства высокой доступности для разработчиков)
  • PostgreSQL: Администрирование, расширения, JSON и анализ данных
  • NoSQL и средства высокой доступности для разработчиков
  • BI-инструменты в действии: от обзора к практике (Power BI, DataLens, Superset)
  • А/Б-тесты: инструменты и кейсы
Элементы контроля

Элементы контроля

  • неблокирующий home work
  • неблокирующий Test in class
  • неблокирующий Final certification - in-person exam
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 3rd module
    0.2 * Final certification - in-person exam + 0.05 * Test in class + 0.05 * Test in class + 0.3 * home work + 0.4 * home work
Список литературы

Список литературы

Рекомендуемая основная литература

  • Johnson, R. A. (2014). Statistics : Principles and Methods (Vol. Seventh edition). Hoboken, NJ: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1639438

Рекомендуемая дополнительная литература

  • Нейронные сети : полный курс, Хайкин, С., 2006
  • Теория вероятностей, случайные процессы и математическая статистика : учебник для вузов, Розанов, Ю. А., 1989

Авторы

  • Титова Наталия Николаевна