• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Programming for Data Science

2018/2019
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
1 year, 1 module

Instructor

Программа дисциплины

Аннотация

В результате освоения дисциплины студент должен знать: особенности интерфейса RStudio; переменные и базовые объекты в R; уметь: адекватно оценивать корректность использования методов анализа данных, применяемых при решении практических задач; владеть: навыками программирования в R; навыками работы с базами данных; обработки и анализа данных в R. Настоящая дисциплина читается на 1 курсе магистратуры образовательной программы «Коммуникации, основанные на данных» и относится к блоку базовых дисциплин.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Программирование для анализа данных» являются: овладение навыками программирования на языке R и работы в среде RStudio, овладение методами обработки, визуализации и анализа качественных и количественных данных для решения прикладных задач, возникающих в сфере управления интегрированными коммуникациями и маркетинга.
Планируемые результаты обучения

Планируемые результаты обучения

  • знает особенности интерфейса RStudio; оперирует переменными и базовыми объектами в R.
  • Работает с базами данных и базовыми объектами в R.
  • Программирует в R на базовом уровне, пишет простейшие функции.
  • Обрабатывает и анализирует данные в R на базовом уровне. Адекватно оценивает корректность использования методов анализа данных, применяемых при решении практических задач.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Установка R и RStudio. Особенности интерфейса RStudio. Язык разметки markdown. Установка библиотек. Базовые объекты R: переменные, векторы, списки, матрицы.
    Установка R и RStudio. Особенности интерфейса RStudio. Язык разметки Markdown. Создание файлов Rmarkdown. Публикация кода на Rpubs. Установка и загрузка библиотек в R. Документация к R и ресурсы, посвященные программированию в R. R как калькулятор. Переменные в R. Типы данных: числовой, целочисленный, текстовый, логический. Преобразование типов. Факторы (factor vectors) и уровни. Базовые объекты в R: векторы, списки, матрицы. Векторы: создание, доступ к элементам, изменение, добавление и удаление элементов, выбор элементов, сортировка. Матрицы и списки: создание, доступ к элементам, изменение, добавление и удаление элементов.
  • Работа с файлами: открытие, изменение, сохранение. Загрузка данных в R. Основы работы с базами данных (объекты data.frame). Работа с базами данных с использованием библиотеки dplyr.
    Загрузка данных в R. Загрузка текстовых файлов (txt, csv), загрузка таблиц Excel (xls, xlsx), загрузка файлов Stata и SPSS (dta, sav). Конвертация файлов в разных форматах. Обращение к базе данных (объект data.frame). Выбор, добавление и удаление переменных. Преобразование типов переменных. Фильтрация, добавление и удаление наблюдений. Создание базы данных. Преобразование матриц и списков в объект data.frame. Объединение баз данных. Загрузка и основной функционал библиотеки dplyr.
  • Операторы в R. Устройство функций в R. Циклы.
    Операторы в R. Условные операторы if и else. Множественные и разветвленные условия в R. Циклы в R, их достоинства и недостатки. Устройство функций в R. Основные функции в R. Функция assign(). Написание простейших функций в R.
  • Разведывательный анализ данных в R. Визуализация количественных и качественных данных в R. Визуализация данных с помощью библиотеки ggplot2.
    Описание базы данных в R. Описательные статистики: среднее арифметическое, среднеквадратичное отклонение, медиана, квантили, квартили и процентили. Выгрузка необходимой информации из R в текстовые редакторы. Разведывательный анализ данных: типы и распределения данных. Выявление связей между качественными и количественными переменными. Базовые графики в R. Визуализация количественных данных в R: гистограммы, графики плотности распределения, ящики с усами, скрипичные диаграммы (violin plots), диаграммы рассеяния, матрицы диаграмм рассеяния. Визуализация качественных данных в R: таблицы сопряженности, столбчатые и круговые диаграммы. Логика построения графиков с помощью ggplot2: соответствие переменным базы данных используемым визуальным средствам (aes), тип графика (geom), тип статистического преобразования (stat). Работа с форматом графиков: изменение фона, палитра цветов, типы маркеров и линий, редактирование легенды графика.
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельная работа (задачи)
  • неблокирующий Домашние задания
    Домашнее задание представляет собой небольшое исследование, которое предполагает несколько этапов: выбор базы данных, описание выбранной базы данных, первичная обработка данных, визуализация и анализ данных. В рамках выполнения домашнего задания от студента требуется подготовить текстовый файл с описанием выбранной базы данных и файл, содержащий код на R, используемый для выполнения задания, а также необходимые комментарии.
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    Накопленная оценка по дисциплине рассчитывается по формуле: Онакопленная= 0,5 * Осам.работа + 0,5 * ОДЗ, где Осам.работа — округленное среднее арифметическое оценок за самостоятельную работу (задачи), ОДЗ — оценка за домашнее задание. В диплом выставляется результирующая оценка по учебной дисциплине. Орезульт = 0,6 * Онакопленная + 0,4 * Оэкзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Gohil, A. (2015). R Data Visualization Cookbook. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=945693

Рекомендуемая дополнительная литература

  • Horton, N. J., & Kleinman, K. (2011). Using R for Data Management, Statistical Analysis, and Graphics. Boca Raton, FL: CRC Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=338655