Магистратура
2020/2021
Инструменты и программные средства анализа данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Статус:
Курс обязательный (Статистический анализ в экономике)
Направление:
38.04.01. Экономика
Кто читает:
Департамент статистики и анализа данных
Где читается:
Факультет экономических наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Кузин Сергей Сергеевич
Прогр. обучения:
Статистический анализ в экономике
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Данный курс предназначен для формирования практических навыков анализа данных с возможностью ориентации среди большого количества имеющихся программных средств для обработки и анализа данных. В курсе дается обзор основных задач обработки данных и примеров различных классов программных средств, используемых в задачах обработки и анализа данных. Особое внимание в курсе уделяется получение студентами практических навыков выполнения всех этапов подготовки и преобразования данных, обнаружения аномалий, получения статистических характеристик данных и исследования зависимостей, настройки и оценки качества моделей
Цель освоения дисциплины
- Целью освоения дисциплины является знание основных задач, принципов и приемов работы с данными, знание и умение применения программных средств работы с данными для выполнения преобразований данных, анализа данных и представления результатов анализа.
Планируемые результаты обучения
- Знает задачи работы с данными и виды результатов, получаемых в процессе обработки и анализа данных
- Знает основные функциональные возможности программных средств работы с данными и умеет проводить их сравнение
- Знает основные формы представления данных
- Умеет выполнять преобразования данных в соответствии с поставленными задачами анализа данных
- Умеет выполнять аудит данных, выявлять аномалии и пропуски в данных, применять методы обработки аномальных и пропущенных значений
- Умеет объединять данные из различных таблиц в соответствии с задачами анализа данных
- Знает принципы использования выборок в анализе данных и умеет их извлекать
- Умеет выполнять визуальный анализ категориальных и количественных данных
- Умеет получать основные описательные статистики наборов данных, а также зависимостей между переменными
- Знает основные принципы построения прогностических моделей и обладает навыками построения и применения моделей
- Умеет оценивать качество и устойчивость прогностических моделей
- Умеет обращаться с временным и рядами данных, выполнять анализ и прогнозирование временных рядов показателей
- Умеет представлять результаты анализа данных в виде таблиц и графических результатов
Содержание учебной дисциплины
- Задачи и программные средства работы с даннымиЗадачи работы с данными. Сравнительный анализ программных средств работы с данными на примере: IBM SPSS, SAS, Stata, Mathworks MathLab, Nesstar, Demetra, R, Python, SQL.
- Преобразование, аудит данных и подготовка к анализуОбзор распространенных форматов данных. Таблицы данных, связанные таблицы. Единицы анализа данных. Структурированные и неструктурированные данные. Поиск дублирующихся записей. Обработка пропущенных значений. Преобразование количественных переменных в категориальные. Визуальная категоризация количественных переменных. Оптимальная категоризация. Отбор данных. Создание новых переменных. Перекодирование переменных. Объединение данных из нескольких таблиц. Варианты объединения данных по ключевым переменным. Объединение данных с несогласующимися записями. Обнаружение выбросов в данных. Обнаружение аномальных значений по нескольким переменным. Визуальный аудит данных. Обработка выбросов и пропущенных значений.
- Анализ данных, построение моделейБазовые описательные статистики в анализе данных. Визуальный анализ данных. Анализ зависимостей между категориальными и количественными переменными. Прогностические модели. Причины использования выборок данных. Случайные выборки. Непропорциональные выборки. Балансировка данных. Сложные выборки. Подготовка и отбор предикторов в модели. Настройка прогностических моделей (на примере: линейная регрессия, дискриминантный анализ, общие линейные модели, логистическая регрессия, деревья решений). Оценка качества настройки и устойчивости моделей. Выделение однородных групп инструментами кластерного анализа, нейронных сетей Кохонена.
- Работа с временными рядами данныхПонятие временных рядов данных. Визуальное представление временных рядов данных. Сезонные и календарные эффекты. Сезонное сглаживание. Прогнозирование временных рядов.
- Средства публикации микроданных и онлайн анализаПрограммные средства для публикации микроданных в Web. Публикация микроданных обследований домашних хозяйств и населения. Метаданные. Онлайн анализ микроданных.
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)
- Промежуточная аттестация (4 модуль)0.25 * Домашнее задание 1 + 0.25 * Домашнее задание 2 + 0.25 * Контрольная работа + 0.25 * Работа на занятиях
Список литературы
Рекомендуемая основная литература
- Attaway, S. (2012). Matlab : A Practical Introduction to Programming and Problem Solving (Vol. 2nd ed). Amsterdam: Butterworth-Heinemann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=380478
- Littell, R. C., Schlotzhauer, S. D. SAS System for Elementary Statistical Analysis. – SAS Institute, 1997. – 456 pp.
- Meyers, L. S. (2013). Performing Data Analysis Using IBM SPSS. Hoboken: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=610849
- Груздев А.В. - Прогнозное моделирование в IBM SPSS Statistics и R: Метод деревьев решений - Издательство "ДМК Пресс" - 2016 - 278с. - ISBN: 978-5-97060-456-4 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/93280
- Роберт И., Кабаков - R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - 588с. - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/58703
Рекомендуемая дополнительная литература
- Norris, G., Cramer, D., Howitt, D., & Qureshi, F. (2013). Introduction to Statistics with SPSS for Social Science. Abingdon: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=960264
- Sarkar, D., Bali, R., & Sharma, T. (2018). Practical Machine Learning with Python : A Problem-Solver’s Guide to Building Real-World Intelligent Systems. [United States]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1667293
- Squire, M. (2016). Mastering Data Mining with Python – Find Patterns Hidden in Your Data. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1343887