Основы анализа данных в R

Бакалавриат 2020/2021

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Экономика)

Направление: 38.03.01. Экономика

Кто читает: Департамент экономики и финансов

Где читается: Факультет экономики, менеджмента и бизнес-информатики

Когда читается: 2-й курс, 3, 4 модуль

Формат изучения: с онлайн-курсом

Преподаватели: Кирпищиков Дмитрий Андреевич, Осипова Мария Юрьевна

Язык: русский

Кредиты: 4

Контактные часы: 50

Дополнительные материалы в LMS Задать вопрос

Аннотация

The course introduces the methods of data manipulation and analysis for Economics. The main aim of the current course is to provide students with theoretical knowledge and practical skills concerning various techniques to analyze economic data and make data-driven decisions. The course begins with an introduction to data analysis in R, free software environment for statistical computing and graphics. This part is designed to build basic computer competencies related to finding, importing, exploring, manipulating and visualization of data. The second part of the course aims to provide students with research and analytical skills and covers such methods of data analysis as hypothesis testing (parametric, nonparametric, with bootstrap), principal component analysis and clustering. The course is based on real data on Russian and European public companies collected by International laboratory of intangible-driven economy NRU HSE and data on sales and customer analytics provided by laboratory GAMES NRU HSE. After completing the course students will be able to locate data, wrangle and manipulate it, and provide meaningful economic analysis of this data. The course is blended. The online video lectures are provided by online platform for education DataCamp (www.datacamp.com). The seminars are provided by lecturers of National Research University Higher School of Economics.

Цель освоения дисциплины

The objective of the course is, that students should be able to: work easily in R, know fundamental of R Syntax; import data in R, make basic manipulation with it to prepare data for calculations and export results of calculations; visualize data; apply basic methods of preliminary data analysis; understand limitation and relevance of the methods.

Планируемые результаты обучения

Знать базовые типы данных и синтаксис языка программирования R. Умеет трансформировать данные в необходимый формат, проводить чистку данных, рассчитывать базовые статистики. Обладает компетенциями визуализации данных.
Знает алгоритм проведения статистических гипотез, знает базовые параметрические и непараметрические тесты. Умеет конструировать выборку с помощью бутстрапа. Обладает компетенциями применения и интерпретации параметрических тестов с использовании техники бутстрап.
Знают методологию кластерного анализа и метода главных компонент. Умеют применять кластерный анализ и метод главных компонент в языке программирования R. Обладают компетенциями оценки результатов применения метода главных компонент и кластерного анализа.

Содержание учебной дисциплины

Основы работы в R
1. Импорт и чистка данных Основы синтаксиса языка программирование R. Подходы к импорту данных. Чистка данных: анализ 6 показателей чистки данных, в том числе анализ на выбросы и пропуски. Различные форматы данных в языке R и базовые операции с ними. Различные шкалы переменных и базовые описательные статистики. 2. Манипуляции с данными Приведение данных к формату единой таблицы, проведение отбора переменных и фильтрации значений в них, в том числе с помощью таких функций как select, mutate, filter. Сведение нескольких таблиц в одну: длинная и широкая форма. Сортировка данных. 3. Визуализация данных Шкалы данных и типы графиков к ним подходящие: простой график, столбчатый, круговая диаграмма, гистограмма. Связь теоретических графиков случайных величин с их эмпирическими аналогами. Изучение пакета ggplot2 в языке программирования R, изменение графических свойств графиков, тем и других характеристик.
Тестирование статистических гипотез
4. Основы двумерного анализа Взаимосвязь переменных разных типов. Точечный график, корреляция Пирсона и корреляция Спирмена, t-тест на сравнение средних в зависимой и независимой выборках, таблицы сопряженности и проверка значимости. Лжезависимость. 5. Тестирование гипотез: параметрический и непараметрический подходы Структура проверки статистических гипотез. Достоинства, применимость и ограничение параметрического тестирования гипотез. Достоинства, применимость и ограничение непараметрических тестов. Применение и сравнение t-тест и z-тест с непараметрическими тестами: Sign тест, Wilcoxon Signed-Ranks тест , Mann-Whitney U тест. Тест Колмогорова-Смирнова: цель, алгоритм применения, интерпретация. 6. Бутстрап Бутстрап, цель его применения, достоинства, недостатки. Алгоритм бутстрапа в общем виде и для отдельных задач: при реализации теста на сравнение средних в 2-х выборках; при расчете значимости корреляции и других.
Метод главных компонент и кластерный анализ
7. Метод главных компонент Метод главных компонент: цель и задачи применения. Математическая модель, лежащая в основе подхода. Критерии выбора количества компонент-факторов. Вращение: суть, геометрическая интерпретация. Критерии применимости факторного анализа, критерии выбора количества наблюдений, основные недостатки подхода. Алгоритм применения метода главных компонент. Практическая реализация и интерпретация полученных результатов. 8. Кластерный анализ Цель и задачи кластерного анализа, в том числе в экономике. Метрики расчета расстояния между объектами, способы расчета расстояния между кластерами: суть, в каких ситуациях применяется. Геометрическая интерпретация кластерного анализа. Иерархический кластерный анализ: цель, алгоритм, интерпретация, ограничения. Метод k-средних: суть, алгоритм, интерпретация, ограничения. Практическая реализация. Способы определения количества кластеров и качества проведенного анализа.

Элементы контроля

Test
Microtests
Self-study (DataCamp)
Reports
Exam

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.4 * Exam + 0.15 * Microtests + 0.15 * Reports + 0.1 * Self-study (DataCamp) + 0.2 * Test

Программа дисциплины