Магистратура
2025/2026




Методы и средства обработки больших данных
Статус:
Курс обязательный (Системный анализ и математические технологии)
Кто читает:
Департамент прикладной математики
Когда читается:
2-й курс, 2, 3 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Титова Наталия Николаевна
Язык:
русский
Кредиты:
6
Контактные часы:
52
Программа дисциплины
Аннотация
Курс посвящён современным подходам и инструментам анализа больших данных с фокусом на клиентскую аналитику и задачи ритейла. В рамках курса рассматриваются основные платформы для анализа онлайн-данных, методы прогностической аналитики, построение моделей и визуализация данных. Особое внимание уделяется текстовой аналитике: от упрощённых представлений (TF-IDF, word2vec) до классификации и извлечения сущностей. Осваиваются задачи анализа временных рядов (ARIMA, SARIMA, скользящее окно), оптимизации запасов и ассортимента, а также кластеризация и сегментация в ритейле. Практические навыки включают работу с SQL и NoSQL СУБД (PostgreSQL, DWH), расширения PostgreSQL, обработку JSON, использование BI-инструментов (Power BI, Datalens, Superset), а также проведение A/B тестирования. Курс сочетает теоретические основы с практическими заданиями для формирования компетенций в области анализа больших данных и принятия решений на их основе.
Цель освоения дисциплины
- Обучение созданию проекта, определению и исследованию источника данных
- Овладение методами прогнозного моделирования
- Проработка методов кластерного анализа
- Применение нейросетевых алгоритмов для решения задач управления
Планируемые результаты обучения
- Анализирует данные с помощью нейронных сетей.
- Выявляет наиболее эффективный метод анализа данных для конкретной задачи.
- Использует основные возможности SAS Interprise Miner для создания проекта, определения и исследования источника данных.
- Классифицирует и выявляет особенности методов анализа данных.
- Оценивает и сравнивает построенные модели
- Применяет возможности SAS Interprise Miner для кластерного анализа.
- Применяет возможности SAS Interprise Miner для прогнозного моделирования.
- Применяет возможности SAS Interprise Miner для работы с регрессиоными моделями.
- Решает задачу анализа данных с помощью деревьев решений.
- Синтезирует посредством симуляции в выбранной программной среде нейросетевой алгоритм управления для типовой системы.
Содержание учебной дисциплины
- Обзор Big-Data. Методы и средства. Введение в клиентскую аналитику
- Клиентская аналитика в Онлайн. Рассмотрение платфор для анализа онлайн даннных
- Построение моделей и визуализация данных
- Прогностическая аналитика и взаимоотношения с клиентами
- Инструменты и методы текстовой аналитики
- Упрощенное представление текста. TF-IDF, word2vec
- Классификация текстов и извлечение именованных сущностей с помощью нейронных сетей
- Задачи анализа данных в розничных сетях продаж товаров. Введение в задачи анализа данных в ритейле. Прогнозирование спроса
- Временные ряды. ARIMA, SARIMA. Плавающее (скользящее) окно
- Описательная аналитика в Ритейл: кластеризация магазинов, сегментация товаров, восстановление спроса.
- Инструменты и технологии DWH. (SQL+ NoSQL и средства высокой доступности для разработчиков)
- PostgreSQL: Администрирование, расширения, JSON и анализ данных
- NoSQL и средства высокой доступности для разработчиков
- BI-инструменты в действии: от обзора к практике (Power BI, DataLens, Superset)
- А/Б-тесты: инструменты и кейсы
Промежуточная аттестация
- 2025/2026 3rd module0.2 * Final certification - in-person exam + 0.05 * Test in class + 0.05 * Test in class + 0.4 * home work + 0.3 * home work
Список литературы
Рекомендуемая основная литература
- Johnson, R. A. (2014). Statistics : Principles and Methods (Vol. Seventh edition). Hoboken, NJ: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1639438
Рекомендуемая дополнительная литература
- Нейронные сети : полный курс, Хайкин, С., 2006
- Теория вероятностей, случайные процессы и математическая статистика : учебник для вузов, Розанов, Ю. А., 1989