Магистратура
2020/2021
Методы и средства обработки больших данных
Статус:
Курс по выбору (Системы управления и обработки информации в инженерии)
Направление:
01.04.04. Прикладная математика
Кто читает:
Департамент прикладной математики
Когда читается:
2-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Андрианова Ольга Геннадьевна
Прогр. обучения:
Системы управления и обработки информации в инженерии
Язык:
русский
Кредиты:
9
Контактные часы:
100
Программа дисциплины
Аннотация
В результате освоения дисциплины студенты научатся: 1. описывать и выявлять особенности современных методов анализа данных; 2. применять возможности SAS Interprise Miner для анализа данных с помощью деревьев решений, регрессионных моделей, нейросетей и кластерного анализа; 3. выявлять наиболее эффективный метод анализа данных для конкретной задачи; 4. оценивать и сравнивать построенные модели; 5. синтезировать посредством симуляции в выбранной программной среде нейросетевой алгоритм управления для типовой системы.
Цель освоения дисциплины
- Освоение основных возможностей SAS Interprise Miner
- Обучение созданию проекта, определению и исследованию источника данных
- Овладение методами прогнозного моделирования
- Проработка методов кластерного анализа
- Применение нейросетевых алгоритмов для решения задач управления
Планируемые результаты обучения
- Классифицирует и выявляет особенности методов анализа данных.
- Использует основные возможности SAS Interprise Miner для создания проекта, определения и исследования источника данных.
- Применяет возможности SAS Interprise Miner для прогнозного моделирования.
- Решает задачу анализа данных с помощью деревьев решений.
- Применяет возможности SAS Interprise Miner для работы с регрессиоными моделями.
- Анализирует данные с помощью нейронных сетей.
- Применяет возможности SAS Interprise Miner для кластерного анализа.
- Выявляет наиболее эффективный метод анализа данных для конкретной задачи.
- Оценивает и сравнивает построенные модели
- Синтезирует посредством симуляции в выбранной программной среде нейросетевой алгоритм управления для типовой системы.
Содержание учебной дисциплины
- Обзор Big-Data. Методы и средства. Используемые программы. Особенности.Обзор Big-Data. Методы и средства. Используемые программы. Особенности Big-Data. Инструменты. Технологии. Методы анализа.
- SAS Interprise Miner. Введение. Возможности. Инструменты.SAS Interprise Miner. Введение. Возможности. Инструменты. Меню. Принцип анализа данных SEMMA. Основные инструменты и узлы. Возможности построения моделей.
- Создание проекта. Определение источника данных. Исследование источника данных.Создание проекта. Определение источника данных. Исследование источника данных. Создание проекта, библиотеки и диаграмм SAS. Настройки источника данных. Типы переменных. Изменение размера выборки. Создание диаграмм. Исследование взаимосвязей между переменными.
- Прогнозное моделирование.Область прикладных задач с использованием прогнозного моделирования. Проклятие размерности. Избавление от бесполезных и избыточных входных переменных. Создание обучающих и проверочных данных.
- Прогнозная модель, использующая дерево решений.Создание дерева решений: структура. Алгоритм построения. Поиск разбиений. Прогнозная модель использующая дерево решений: построение, создание правила разбиения. Оптимизация сложности деревьев решений. Оценка качества дерева решений.
- Прогнозное моделирование: работа с регрессиоными моделями.Регрессия. Логистическая регрессия. Полиномиальные регрессии. Оценка параметров. Обработка пропущенных значений. Выбор входных переменных. Оптимизация сложности. Интерпретация регрессии. Регрессии с преобразованными входными переменными. Категориальные переменные в регрессионной модели. Область прикладных задач с использованием прогнозного моделирования. Проклятие размерности. Создание обучающих и проверочных данных.
- Прогнозное моделирование: нейроные сети.Особенности нейронных сетей. Обучение нейронной сети. Инструмент AutoNeural.
- Кластерный анализ. Анализ потребительской корзины.Кластерный анализ: методы обучения. Исследование сегментов. Анализ потребительской корзины: инструмент Association.
- Оценка моделей. Сравнение моделей.Статистики подгонки моделей. ROC-индекс, кривые. SBC. Сравнение моделей с помощью сводных статистик. Графики рейтингов. Матрица прибыли. Ансамбль моделей.
- Нейросетевые алгоритмы для решения задач управления.Построение дифференциальных законов обучения для синтеза наблюдателей состояния нелинейной динамической системы.
Элементы контроля
- Аудиторная работаПреподаватель оценивает работу студентов на семинарских и практических занятиях: оценивается активность студента на практических занятиях, участие в дискуссиях, правильность решения задач, умение построение модели с использованием различных данных, понимание сильных сторон и ограничений используемых инструментов. Оценки за работу на практических занятиях преподаватель выставляет в рабочую ведомость. Оценка по 10-ти балльной шкале за работу на практических занятиях определяется перед итоговым контролем
- Самостоятельная работаПреподаватель оценивает самостоятельную работу студентов (задания, которые выдаются на семинарских занятиях). Оценки за самостоятельную работу студента преподаватель выставляет в рабочую ведомость. Оценка по 10-ти балльной шкале за работу на практических занятиях определяется перед итоговым контролем.
- Экзамен
- Аудиторная работаПреподаватель оценивает работу студентов на семинарских и практических занятиях: оценивается активность студента на практических занятиях, участие в дискуссиях, правильность решения задач, умение построение модели с использованием различных данных, понимание сильных сторон и ограничений используемых инструментов. Оценки за работу на практических занятиях преподаватель выставляет в рабочую ведомость. Оценка по 10-ти балльной шкале за работу на практических занятиях определяется перед итоговым контролем
- Самостоятельная работаПреподаватель оценивает самостоятельную работу студентов (задания, которые выдаются на семинарских занятиях). Оценки за самостоятельную работу студента преподаватель выставляет в рабочую ведомость. Оценка по 10-ти балльной шкале за работу на практических занятиях определяется перед итоговым контролем.
- Экзамен
Промежуточная аттестация
- Промежуточная аттестация (1 модуль)0.25 * Самостоятельная работа + 0.25 * Самостоятельная работа + 0.5 * Экзамен
- Промежуточная аттестация (3 модуль)0.5 * Самостоятельная работа + 0.5 * Экзамен
Список литературы
Рекомендуемая основная литература
- Johnson, R. A. (2014). Statistics : Principles and Methods (Vol. Seventh edition). Hoboken, NJ: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1639438
Рекомендуемая дополнительная литература
- Нейронные сети : полный курс, Хайкин, С., 2006
- Теория вероятностей, случайные процессы и математическая статистика : учебник для вузов, Розанов, Ю. А., 1989