• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Инструменты и программные средства анализа данных

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Статус: Курс обязательный (Статистический анализ в экономике)
Направление: 38.04.01. Экономика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Кузин Сергей Сергеевич
Прогр. обучения: Статистический анализ в экономике
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

Данный курс предназначен для формирования практических навыков анализа данных с возможностью ориентации среди большого количества имеющихся программных средств для обработки и анализа данных. В курсе дается обзор основных задач обработки данных и примеров различных классов программных средств, используемых в задачах обработки и анализа данных. Особое внимание в курсе уделяется получение студентами практических навыков выполнения всех этапов подготовки и преобразования данных, обнаружения аномалий, получения статистических характеристик данных и исследования зависимостей, настройки и оценки качества моделей
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины является знание основных задач, принципов и приемов работы с данными, знание и умение применения программных средств работы с данными для выполнения преобразований данных, анализа данных и представления результатов анализа.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает задачи работы с данными и виды результатов, получаемых в процессе обработки и анализа данных
  • Знает основные функциональные возможности программных средств работы с данными и умеет проводить их сравнение
  • Знает основные формы представления данных
  • Умеет выполнять преобразования данных в соответствии с поставленными задачами анализа данных
  • Умеет выполнять аудит данных, выявлять аномалии и пропуски в данных, применять методы обработки аномальных и пропущенных значений
  • Умеет объединять данные из различных таблиц в соответствии с задачами анализа данных
  • Знает принципы использования выборок в анализе данных и умеет их извлекать
  • Умеет выполнять визуальный анализ категориальных и количественных данных
  • Умеет получать основные описательные статистики наборов данных, а также зависимостей между переменными
  • Знает основные принципы построения прогностических моделей и обладает навыками построения и применения моделей
  • Умеет оценивать качество и устойчивость прогностических моделей
  • Умеет обращаться с временным и рядами данных, выполнять анализ и прогнозирование временных рядов показателей
  • Умеет представлять результаты анализа данных в виде таблиц и графических результатов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Задачи и программные средства работы с данными
    Задачи работы с данными. Сравнительный анализ программных средств работы с данными на примере: IBM SPSS, SAS, Stata, Mathworks MathLab, Nesstar, Demetra, R, Python, SQL.
  • Преобразование, аудит данных и подготовка к анализу
    Обзор распространенных форматов данных. Таблицы данных, связанные таблицы. Единицы анализа данных. Структурированные и неструктурированные данные. Поиск дублирующихся записей. Обработка пропущенных значений. Преобразование количественных переменных в категориальные. Визуальная категоризация количественных переменных. Оптимальная категоризация. Отбор данных. Создание новых переменных. Перекодирование переменных. Объединение данных из нескольких таблиц. Варианты объединения данных по ключевым переменным. Объединение данных с несогласующимися записями. Обнаружение выбросов в данных. Обнаружение аномальных значений по нескольким переменным. Визуальный аудит данных. Обработка выбросов и пропущенных значений.
  • Анализ данных, построение моделей
    Базовые описательные статистики в анализе данных. Визуальный анализ данных. Анализ зависимостей между категориальными и количественными переменными. Прогностические модели. Причины использования выборок данных. Случайные выборки. Непропорциональные выборки. Балансировка данных. Сложные выборки. Подготовка и отбор предикторов в модели. Настройка прогностических моделей (на примере: линейная регрессия, дискриминантный анализ, общие линейные модели, логистическая регрессия, деревья решений). Оценка качества настройки и устойчивости моделей. Выделение однородных групп инструментами кластерного анализа, нейронных сетей Кохонена.
  • Работа с временными рядами данных
    Понятие временных рядов данных. Визуальное представление временных рядов данных. Сезонные и календарные эффекты. Сезонное сглаживание. Прогнозирование временных рядов.
  • Средства публикации микроданных и онлайн анализа
    Программные средства для публикации микроданных в Web. Публикация микроданных обследований домашних хозяйств и населения. Метаданные. Онлайн анализ микроданных.
Элементы контроля

Элементы контроля

  • неблокирующий Работа на занятиях
  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Контрольная работа
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
  • Промежуточная аттестация (4 модуль)
    0.25 * Домашнее задание 1 + 0.25 * Домашнее задание 2 + 0.25 * Контрольная работа + 0.25 * Работа на занятиях
Список литературы

Список литературы

Рекомендуемая основная литература

  • Attaway, S. (2012). Matlab : A Practical Introduction to Programming and Problem Solving (Vol. 2nd ed). Amsterdam: Butterworth-Heinemann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=380478
  • Littell, R. C., Schlotzhauer, S. D. SAS System for Elementary Statistical Analysis. – SAS Institute, 1997. – 456 pp.
  • Meyers, L. S. (2013). Performing Data Analysis Using IBM SPSS. Hoboken: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=610849
  • Груздев А.В. - Прогнозное моделирование в IBM SPSS Statistics и R: Метод деревьев решений - Издательство "ДМК Пресс" - 2016 - 278с. - ISBN: 978-5-97060-456-4 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/93280
  • Роберт И., Кабаков - R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - 588с. - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/58703

Рекомендуемая дополнительная литература

  • Norris, G., Cramer, D., Howitt, D., & Qureshi, F. (2013). Introduction to Statistics with SPSS for Social Science. Abingdon: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=960264
  • Sarkar, D., Bali, R., & Sharma, T. (2018). Practical Machine Learning with Python : A Problem-Solver’s Guide to Building Real-World Intelligent Systems. [United States]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1667293
  • Squire, M. (2016). Mastering Data Mining with Python – Find Patterns Hidden in Your Data. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1343887