Магистратура
2020/2021
Основы анализа данных
Статус:
Курс адаптационный (Компьютерные системы и сети)
Направление:
09.04.01. Информатика и вычислительная техника
Кто читает:
Департамент компьютерной инженерии
Когда читается:
1-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Поляков Константин Львович
Прогр. обучения:
Компьютерные системы и сети
Язык:
русский
Кредиты:
3
Контактные часы:
52
Программа дисциплины
Аннотация
Курс «Основы анализа данных» ориентирован на студентов магистратуры, которые связывают свою будущую профессиональную деятельность с решением творческих задач в области проектированием и созданием программных и аппаратных инструментов необходимых для ИТ поддержки деятельности человека. Он посвящен изучению современных методов сбора и анализа количественных или качественных данных необходимых для решения широкого класса проблем, возникающих в ходе планирования и реализации хозяйственной деятельности, при организации аналитической поддержки принятия решений на различных уровнях управления, а также задач, возникающих в области управления техническими системами.
Цель освоения дисциплины
- Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов, обучающихся по магистерской программе "Информатика и вычислительная техника", изучающих дисциплину «Основы анализа данных».
Планируемые результаты обучения
- Умеет анализировать качество данных, умеет обнаруживать статистические свойства данных.
- Умеет специфицировать модель линейной регрессии (МЛР). Знает понятие «нелинейная внутренне линейная модель».
- Умеет оценивать параметры МЛР. Знает свойства полученных оценок.
- Умеет оценить значимость полученных оценок параметров МЛР. Умеет построить прогноз на основе оцененной модели.
- Умеет определять наличие нарушений основных предположений МЛР.
- Умеет проверять гипотезы из прикладной области с помощью построенной МЛР на основе проверки статистических гипотез.
- Знает определение стационарности в широком смысле.
- Знает определение модели ARIMAX.
- Знает определение понятия "выброса" для временных рядов
- Умеет восстанавливать пропущенные значения временного ряда
- Умеет выделять полиномиальные и гармонические тренды
- Знает методы обнаружения «единичных корней».
Содержание учебной дисциплины
- Предварительный анализ данных.Типология шкал.Номинальная, порядковая, интервальная и относительная шкалы. Допустимые преобразования и операции. Использование в МЛР. Простейшие методы идентификации МЛР. Анализ диаграмм рассеивания. Анализ диаграмм Бокса – Вискера для номинальных и порядковых переменных. Анализ корреляционной матрицы для интервальных и относительных переменных.
- Модели нестационарных процессов.Теория единичных корней. Критерии обнаружения единичных корней. Модель ARIMA.
- Моделирование долговременных и сезонных явлений.Полиномиальные тренды.Понятие "тренд". Связь с моделью линейной регрессии. Стратегия оценки степени тренда. Циклические тренды.Характеристики циклических трендов. Сезонность и циклы. Гармоническое представление ряда, спектрограмма. Сезонные динамические модели.
- Восстановление отсутствующих данных.Методы интерполяции пропущенных значений. Выбор адекватной задаче стратегии. Проблемы, возникающие при интерполяции.
- Моделирование влияния скрытых факторов на основные показатели процессов.Понятие выброса и его отличие от интервенции. Обнаружение единичных и множественных выбросов. Алгоритм Чена и Лю.
- Моделирование влияния внешних переменных на основные показатели процессовОбобщенная модель линейной регрессии (ОМЛР).Свойства оценок параметров ОМЛР метод наименьших квадратов (МНК). Обобщенный метод наименьших квадратов. Теорема Айткена. Методы обнаружения автокорреляции случайной составляющей. Статистика Дарбина-Ватсона. Точность оценки коэффициента автокорреляции. Критерий Бокса-Льюнга. Критерий Бреуша-Годфрея. Модель авторегрессии с внешними факторами (ARMAX).
- Определение и классификация временных рядов.Понятие "временной ряд" и его основные характеристики.Понятие "автокорреляция". Стационарность в широком и узком смысле.Тема 3.1 Теоретические основы динамических моделей.Понятие "линейный фильтр" (ЛФ). Физически реализуемый ЛФ. Наилучший линейный прогноз. Частная автокорреляция. Разложение Вольда. Операторное представление разностных уравнений. Передаточная функция.Модель авторегрессии.Операторное представление. Необходимое и достаточное условие стационарности. Вид функции автокорреляции. Модель скользящего среднего. Смешанные модели.Операторное представление, условие обратимости. Вид автокорреляционной функции.
- Проверка гипотез о свойствах объектов и явлений с помощью МЛР.Гипотезы и структура МЛР. Принципы организации проверки экономических и управленческих гипотез.Общее понятие модели. Теория, обладающая проверяемыми следствиями. Вложенные и не вложенные модели. МЛР с переменной структурой (фиктивные переменные).Общая линейная гипотеза. Критерий Вальда. Критерий Чоу.
- Нарушение основных гипотез МЛР.Нарушение предположения о полноте ранга.Коллинеарность и мультиколлинеарность. Гребневая регрессия.Гетероскедастичность и наличие автокорреляции. Критерии обнаружения. Критерий Уайта. Стандартные ошибки в форме Уайта и Ньюи-Веста. Статистика Дарбина – Ватсона.Анализ закона распределения случайной составляющей. Критерий Жаку-Бера. Нормальная кривая.
- Анализ значимости регрессоров. Прогнозирование.Проверка гипотез о значимости регрессоров.Значимость регрессоров. Критерий Стьюдента проверки значимости. Связь t-статистики и модифицированного коэффициента детерминации. Доверительный интервал для истинного значения коэффициента МЛР. Проверка значимости всего множества регрессоров. Прогнозирование новых значений зависимой переменной.Доверительный интервал для линейной регрессии. Доверительный интервал для нового значения зависимой переменной.
- Метод наименьших квадратов и линейная регрессия. Статистические свойства МНК оценки параметров МЛР.Оценка параметров МЛР методом наименьших квадратов (МНК). Оценка качества аппроксимации данных.Метод наименьших квадратов. Аналитическое представление МНК оценки параметров МЛР. Коэффициент детерминации, коэффициент множественной корреляции. Методы выбора структуры модели.Модифицированный коэффициент детерминации. Информационные критерии выбора структуры. Математическое ожидание и дисперсия МНК оценок параметров МЛР. Несмещенность МНК оценки параметров МЛР. Ковариационная матрица оценок. Эффективность МНК оценок параметров МЛР.Теорема Гаусса-Маркова. Оценка дисперсии случайной составляющей МЛР. Некоррелированность этой оценки и МНК оценок параметров МЛР.
- Модель линейной регрессии (МЛР).Определение МЛР. Нелинейная, внутренне линейная модель. Логолинейная модель
Элементы контроля
- работа на семинарах1Текущая оценка TO=10 Score/Score_max , где Score — сумма баллов, полученная за работу на семинарах. Score_max — максимальная сумма баллов в группе
- самостоятельная работа1
- работа на семинарах2Текущая оценка TO=10 Score/Score_max , где Score — сумма баллов, полученная за работу на семинарах. Score_max — максимальная сумма баллов в группе
- самостоятельная работа2
- экзамен2
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)Орез2=0.10Ораб.на сем.1+0.25Осам.работа1+0.10Ораб.на сем.2+0.25Осам.работа2+0.30Оэкзамен2
Список литературы
Рекомендуемая основная литература
- Эконометрика - 2: продвинутый курс с приложениями в финансах: Учебник / С.А. Айвазян, Д. Фантаццини; Московская школа экономики МГУ им. М.В. Ломоносова (МШЭ). - М.: Магистр: НИЦ ИНФРА-М, 2014. - 944 с.: 70x100 1/32. (переплет) ISBN 978-5-9776-0333- - Режим доступа: http://znanium.com/catalog/product/472607
Рекомендуемая дополнительная литература
- Введение в эконометрику : учебник для вузов, Доугерти, К., 2009
- Введение в эконометрику : учебник для вузов, Доугерти, К., 2010
- Эконометрика. Начальный курс : учебник для вузов, Магнус, Я. Р., 2007