2020/2021
Анализ данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Маго-лего
Кто читает:
Департамент программной инженерии
Когда читается:
3, 4 модуль
Преподаватели:
Меликян Алиса Валерьевна
Язык:
русский
Кредиты:
3
Контактные часы:
52
Программа дисциплины
Аннотация
Дисциплина «Анализ данных» относится к блоку дисциплин по выбору из общеуниверситетского пула. В результате её освоения студенты изучат современные методы анализа данных для проведения исследований и овладеют практическими навыками использования современных программных средств для работы с данными. Студенты смогут осуществить предварительную подготовку данных для последующей работы с ними в специализированных программах, выбрать подходящий метод анализа в зависимости от типа данных и исследовательской задачи, провести анализ данных и интерпретировать полученные результаты, представлять их в доступном для широкой аудитории виде.
Цель освоения дисциплины
- Овладение современными методами анализа данных и навыками работы с данными с использованием современных программных средств для проведения исследований.
Планируемые результаты обучения
- Уметь провести описательный анализ данных
- Уметь осуществлять выбор подходящего метода анализа данных для проведения конкретного исследования в соответствии с целями, задачами, гипотезами и имеющимися в наличии данными
- Уметь исследовать и дать количественную оценку взаимосвязям между переменными разного типа
- Уметь построить модель линейной регрессии и описать её
- Уметь построить модель логистической регрессии и описать её
- Уметь провести факторный анализ данных
- Уметь провести кластерный анализ данных
Содержание учебной дисциплины
- Введение в анализ данныхОбзор методов анализа данных. Обзор статистических пакетов. Источники данных. Ввод, редактирование, модификация экспорт/импорт данных и результатов.
- Описательный анализ данныхЧастотный анализ. Графический анализ. Описательная статистика. Оценка распределения значений переменной. Основные типы шкал и соответствующие им меры средней тенденции и меры разброса. Нормальное распределение, Z-стандартизация, тест Колмогорова-Смирнова. Работа с многовариантными вопросами.
- Исследование взаимосвязей между переменнымиТаблица сопряжённости. Формулировка гипотез. Этапы проверки гипотез. Уровень значимости и ошибка первого рода. Тест Хи-квадрат. Построение диаграммы рассеяния. Парные коэффициенты корреляции (Пирсона, Кендалла, Спирмана). Частные корреляции. Сравнение средних (t-тест для независимых и зависимых выборок, однофакторный дисперсионный анализ). Непараметрические тесты.
- Линейная регрессияЗадачи регрессионного анализа. Множественная линейная регрессия. Оценка качества модели. Анализ остатков. Мультиколлинеарность. Гетероскедастичность. Фиктивные переменные. Диагностика регрессионной модели.
- Логистическая регрессияОсобенности модели логистической регрессии. Оценка качества модели. Предельные эффекты. Анализ остатков. Мультиколлинеарность. Гетероскедастичность. Фиктивные переменные. Диагностика регрессионной модели.
- Факторный анализПорядок выполнения факторного анализа. Оценка пригодности исходных данных для проведения факторного анализа. Метод главных компонент. Факторные нагрузки. Вращение осей. Сохранение факторов в виде новых переменных в файле данных. Интерпретация значений факторов.
- Кластерный анализИерархический кластерный анализ. Кластерный анализ методом к-средних. Содержательная характеристика кластеров.
Элементы контроля
- Работа на семинаре (АР)Задания, выполняемые на компьютере во время семинаров.
- Контрольные работы (КР)Письменная контрольная работа проводится в конце модуля с целью оценки результатов освоения пройденного материала.
- Домашнее задание (ДЗ)Домашнее задание представляет собой исследовательский проект по сбору и анализу данных. Предусматривает подготовку аналитического отчёта по результатам анализа.
- Экзамен (Э)Экзамен проводится в письменной форме. Экзамен проводится на платформе MS Teams (https://www.microsoft.com/ru-ru/microsoft-365/microsoft-teams/group-chat-software). К экзамену необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, установленное приложение MS Teams. Для участия в экзамене студент обязан явиться на экзамен согласно точному расписанию и быть готовым отвечать на вопросы преподавателя с включённым микрофоном и камерой. Во время экзамена студентам запрещено пользоваться подсказками посторонних людей. Во время экзамена студентам разрешено задавать преподавателю уточняющие вопросы, если не понятно задание. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 10 минут. Долговременным нарушением связи во время экзамена считается нарушение длительностью более 10 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.2 * Домашнее задание (ДЗ) + 0.3 * Контрольные работы (КР) + 0.2 * Работа на семинаре (АР) + 0.3 * Экзамен (Э)
Список литературы
Рекомендуемая основная литература
- Введение в эконометрику : учебник для вузов, Доугерти, К., 2010
Рекомендуемая дополнительная литература
- Core concepts in data analysis: summarization, correlation and visualization, Mirkin, B., 2011
- Felix Bittmann. (2019). Stata : A Really Short Introduction. De Gruyter Oldenbourg.
- Kothari, P. (2015). Data Analysis with Stata. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1087968
- Путеводитель по современной эконометрике : учеб.- метод. пособие для вузов, Вербик, М., 2008
- Эконометрика в задачах и упражнениях, Борзых, Д. А., 2017