Магистратура
2018/2019





Программирование для анализа данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Статус:
Курс обязательный (Коммуникации, основанные на данных)
Направление:
42.04.01. Реклама и связи с общественностью
Кто читает:
Департамент интегрированных коммуникаций
Когда читается:
1-й курс, 1 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Коммуникации, основанные на данных
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
В результате освоения дисциплины студент должен знать: особенности интерфейса RStudio; переменные и базовые объекты в R; уметь: адекватно оценивать корректность использования методов анализа данных, применяемых при решении практических задач; владеть: навыками программирования в R; навыками работы с базами данных; обработки и анализа данных в R. Настоящая дисциплина читается на 1 курсе магистратуры образовательной программы «Коммуникации, основанные на данных» и относится к блоку базовых дисциплин.
Цель освоения дисциплины
- Целями освоения дисциплины «Программирование для анализа данных» являются: овладение навыками программирования на языке R и работы в среде RStudio, овладение методами обработки, визуализации и анализа качественных и количественных данных для решения прикладных задач, возникающих в сфере управления интегрированными коммуникациями и маркетинга.
Планируемые результаты обучения
- знает особенности интерфейса RStudio; оперирует переменными и базовыми объектами в R.
- Работает с базами данных и базовыми объектами в R.
- Программирует в R на базовом уровне, пишет простейшие функции.
- Обрабатывает и анализирует данные в R на базовом уровне. Адекватно оценивает корректность использования методов анализа данных, применяемых при решении практических задач.
Содержание учебной дисциплины
- Установка R и RStudio. Особенности интерфейса RStudio. Язык разметки markdown. Установка библиотек. Базовые объекты R: переменные, векторы, списки, матрицы.Установка R и RStudio. Особенности интерфейса RStudio. Язык разметки Markdown. Создание файлов Rmarkdown. Публикация кода на Rpubs. Установка и загрузка библиотек в R. Документация к R и ресурсы, посвященные программированию в R. R как калькулятор. Переменные в R. Типы данных: числовой, целочисленный, текстовый, логический. Преобразование типов. Факторы (factor vectors) и уровни. Базовые объекты в R: векторы, списки, матрицы. Векторы: создание, доступ к элементам, изменение, добавление и удаление элементов, выбор элементов, сортировка. Матрицы и списки: создание, доступ к элементам, изменение, добавление и удаление элементов.
- Работа с файлами: открытие, изменение, сохранение. Загрузка данных в R. Основы работы с базами данных (объекты data.frame). Работа с базами данных с использованием библиотеки dplyr.Загрузка данных в R. Загрузка текстовых файлов (txt, csv), загрузка таблиц Excel (xls, xlsx), загрузка файлов Stata и SPSS (dta, sav). Конвертация файлов в разных форматах. Обращение к базе данных (объект data.frame). Выбор, добавление и удаление переменных. Преобразование типов переменных. Фильтрация, добавление и удаление наблюдений. Создание базы данных. Преобразование матриц и списков в объект data.frame. Объединение баз данных. Загрузка и основной функционал библиотеки dplyr.
- Операторы в R. Устройство функций в R. Циклы.Операторы в R. Условные операторы if и else. Множественные и разветвленные условия в R. Циклы в R, их достоинства и недостатки. Устройство функций в R. Основные функции в R. Функция assign(). Написание простейших функций в R.
- Разведывательный анализ данных в R. Визуализация количественных и качественных данных в R. Визуализация данных с помощью библиотеки ggplot2.Описание базы данных в R. Описательные статистики: среднее арифметическое, среднеквадратичное отклонение, медиана, квантили, квартили и процентили. Выгрузка необходимой информации из R в текстовые редакторы. Разведывательный анализ данных: типы и распределения данных. Выявление связей между качественными и количественными переменными. Базовые графики в R. Визуализация количественных данных в R: гистограммы, графики плотности распределения, ящики с усами, скрипичные диаграммы (violin plots), диаграммы рассеяния, матрицы диаграмм рассеяния. Визуализация качественных данных в R: таблицы сопряженности, столбчатые и круговые диаграммы. Логика построения графиков с помощью ggplot2: соответствие переменным базы данных используемым визуальным средствам (aes), тип графика (geom), тип статистического преобразования (stat). Работа с форматом графиков: изменение фона, палитра цветов, типы маркеров и линий, редактирование легенды графика.
Элементы контроля
- Самостоятельная работа (задачи)
- Домашние заданияДомашнее задание представляет собой небольшое исследование, которое предполагает несколько этапов: выбор базы данных, описание выбранной базы данных, первичная обработка данных, визуализация и анализ данных. В рамках выполнения домашнего задания от студента требуется подготовить текстовый файл с описанием выбранной базы данных и файл, содержащий код на R, используемый для выполнения задания, а также необходимые комментарии.
- Экзамен
Промежуточная аттестация
- Промежуточная аттестация (1 модуль)Накопленная оценка по дисциплине рассчитывается по формуле: Онакопленная= 0,5 * Осам.работа + 0,5 * ОДЗ, где Осам.работа — округленное среднее арифметическое оценок за самостоятельную работу (задачи), ОДЗ — оценка за домашнее задание. В диплом выставляется результирующая оценка по учебной дисциплине. Орезульт = 0,6 * Онакопленная + 0,4 * Оэкзамен
Список литературы
Рекомендуемая основная литература
- Gohil, A. (2015). R Data Visualization Cookbook. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=945693
Рекомендуемая дополнительная литература
- Horton, N. J., & Kleinman, K. (2011). Using R for Data Management, Statistical Analysis, and Graphics. Boca Raton, FL: CRC Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=338655