Магистратура
2020/2021
Предиктивное моделирование данных
Статус:
Курс по выбору (Бизнес-информатика)
Направление:
38.04.05. Бизнес-информатика
Кто читает:
Департамент бизнес-информатики
Где читается:
Высшая школа бизнеса
Когда читается:
1-й курс, 2, 3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Богданова Татьяна Кирилловна
Прогр. обучения:
Бизнес-информатика
Язык:
русский
Кредиты:
5
Контактные часы:
40
Программа дисциплины
Аннотация
Дисциплина "Предиктивное моделирование данных" предполагает получение студентами теоретических знаний в области анализа данных, выявления структуры анализируемой выборки, нахождения взаимосвязей между показателями, измеренными в разных шкалах, построения регрессионных моделей, проведения факторного и кластерного анализа, прогнозирования с использованием деревьев решений, а также получение практических навыков применения статистических методов при решении задач с использованием профессиональных систем статистического анализа данных.
Цель освоения дисциплины
- Целью освоения дисциплины является формирование у студентов комплекса теоретических знаний и методологических основ в области предиктивного моделирования данных, а также практических навыков, необходимых для использования системы IBM SPSS Statistics, обеспечивающих решение широкого круга задач с использованием статистических методов.
Планируемые результаты обучения
- Знать понятия выборки, генеральной совокупности, вероятности, статистической значимости. Понимать назначения шкал измерения переменных, уметь модифицировать данные и осуществлять их отбор.
- Понимать сущность процедуры расчета частотных таблиц, знать структуру и содержание элементов таблиц сопряженности, статистических характеристик распределения значений переменных, измеренных в интервальной шкале.
- Знать особенности измерения связей для переменных, измеренных в номинальной, порядковой и интервальной шкалах.
- Уметь строить модели парной и множественной линейной регрессии. Знать методы оценки качества моделей.
- Уметь строить модели бинарной и порядковой логистической регрессии. Знать методы оценки качества моделей.
- Знать методы дерева решений и методы проверки адекватности модели.
- Знать сущность методов кластеризации, принципы факторного анализа и метод главных компонент. Уметь решать задачи с использованием этих методов.
Содержание учебной дисциплины
- Особенности подготовки данных для статистического анализа.Предмет и содержание курса, связь с другими дисциплинами. Классификация основных методов статистического анализа данных, разработанных в рамках теории математической статистики. Понятие выборки и генеральной совокупности, вероятности и статистической значимости. Шкалы измерения. Переменные и наблюдения, значение переменной в конкретном наблюдении. Имя переменной, тип переменной, метка переменной и метки значений. Редактирование, удаление, добавление переменных. Ввод новых наблюдений. Пропущенные значения. Модификация и отбор данных: условный отбор данных и случайная выборка, сортировка и группировка данных, перекодирование переменных, вычисление новых переменных. Поиск ошибок и логических противоречий в данных. Объединение файлов по переменным и наблюдениям.
- Описательная статистика для переменных, измеренных в номинальной, порядковой и интервальной шкалах.Процедура расчета частотных таблиц. Элементы частотных таблиц и их интерпретация. Таблицы сопряженности. Структура и содержание элементов таблицы, ее итоговых показателей. Графическая интерпретация частотных таблиц и таблиц сопряженности. Получение статистических характеристик распределения значений переменных, измеренных в интервальной шкале. Проверка распределения на нормальность, однородность дисперсии в группах. Нормализующие преобразования. Стандартизация значений. Графический анализ данных: построение гистограмм, ящичковых диаграмм - BoxPlot, диаграмм Stem & Leaf - "ствол листья" графика Q-Q Normal Probability Plot - "нормальная вероятностная бумага", графика с удаленным трендом (Detrended Normal Plot). Характеристики различных типов графика.
- Поиск связей между номинальными, порядковыми и количественными переменными.Особенности измерения связи для переменных, измеренных в номинальной и порядковой шкале. Проверка статистических гипотез. Статистическая значимость. Критерий Хи-квадрат и ограничения на его использование. Точные тесты (Exact-тест, метод Монте-Карло). Другие критерии проверки на независимость (коэффициент риска и т.д.). Построение и анализ диаграмм рассеяния. Коэффициенты корреляции Пирсона. Ранговые коэффициенты корреляции. Частные корреляции. Значимость связи.
- Введение в регрессионный анализ.Модель парной линейной регрессии. Оценка качества модели, Интерпретация коэффициентов при независимых переменных. Доверительные интервалы коэффициентов и прогнозных значений зависимой переменной. Множественная регрессия, проблема мультиколлинеарности, выбросы. Введение качественных переменных в регрессию. Проверка выполнения условий Гаусса-Маркова. Гетероскедастичность и методы ее устранения. Функциональные формы моделей с логарифмами.
- Логистическая регрессия.Методы классификации. Модель логистической регрессии. Оценка качества модели. Категориальные предикторы, отбор предикторов. Методы диагностики. Мультиномиальная логистические регрессия. Порядковая регрессия.
- Деревья решений.Деревья решений как метод классификации. Основные термины и понятия. Методы построения дерева решений. Анализ с помощью дерева решений. Обычные задачи анализа с применением метода дерева решений. Области приложения анализа с помощью метода дерева решений. Анализ с помощью метода CHAID. Метод Quest. Регрессионные деревья. Проверка адекватности модели. Сравнение методов построения дерева решений.
- Кластерный и факторный анализ данных.Кластерный анализ как метод классификации. Иерархические и неиерархические методы кластерного анализа. Меры расстояния и нормировка. Профили средних значений кластеров. Кластеризация при помощи метода Варда. Метод k-средних. Факторный анализ. Принципы факторного анализа. Метод главных компонент. График «осыпь». Методы вращения.
Элементы контроля
- контрольная работа, представляющая собой совокупность выполненных на занятиях заданий.
- решение задач с использованием ПО IBM SPSS StatisticsЭкзамен проводится онлайн без прокторинга.
- аудиторная работа.
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)Оценка = 0.5*(0.7*оценка за контрольную работу + 0.3*оценка за аудиторную работу) + 0.5* оценка за экзамен
Список литературы
Рекомендуемая основная литература
- SPSS 19: профессиональный статистический анализ данных, Наследов, А., 2011
- SPSS: искусство обработки информации : анализ стат. данных и восстановление скрытых закономерностей: пер. с нем., Бююль, А., 2002
- Анализ данных на компьютере : учеб. пособие, Тюрин, Ю. Н., 2008
- Анализ социологических данных с помощью пакета SPSS : учеб. пособие для вузов, Крыштановский, А. О., 2006
- Введение в анализ данных : учебник и практикум для вузов, Миркин, Б. Г., 2015
- Введение в математическую статистику, Ивченко, Г. И., 2010
- Задачи с решениями по математической статистике : учеб. пособие для вузов, Ивченко, Г. И., 2007
- Задачник по математической статистике : для студентов социально - гуманитарных и управленческих специальностей, Макаров, А. А., 2018
- Задачник по теории вероятностей для студентов социально - гуманитарных специальностей, Макаров, А. А., 2015
- Основные вероятностные распределения : учеб. пособие, Ивченко, Г. И., 2008
- Прикладной регрессионный анализ, Дрейпер, Н. Р., 2007
- Теория вероятностей : учебник для экономических и гуманитарных специальностей: учеб. пособие для вузов, Тюрин, Ю. Н., 2009
- Теория вероятностей и математическая статистика : учеб. пособие, Мхитарян, В. С., 2013
- Теория вероятностей и математическая статистика для социологов и менеджеров : учебник для вузов, Пашкевич, А. В., 2014
- Теория вероятностей и статистика : учеб. пособие, Тюрин, Ю. Н., 2008
Рекомендуемая дополнительная литература
- SPSS: Статистический анализ в маркетинговых исследованиях, Таганов, Д., 2005
- Математические методы психологического исследования : анализ и интерпретация данных: учеб. пособие, Наследов, А. Д., 2006