Бакалавриат
2019/2020
Анализ данных в R
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Социология)
Направление:
39.03.01. Социология
Где читается:
Факультет социальных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Зарманбетов Ахмед Курманалиевич
Язык:
русский
Кредиты:
6
Контактные часы:
64
Программа дисциплины
Аннотация
Данная дисциплина предназначена для изучения языка программирования R и его использования для анализа данных. Дисциплина охватывает все стадии анализа данных, от сбора и обработки данных до обучения модели на этих данных. Уделено большое внимание визуализации данных, работе с данными в интернете, а также специфическим типам данных, в частности, работе с текстом.
Цель освоения дисциплины
- Освоение такого инструмента как язык программирования R для анализа данных, начиная с импорта и подготовки данных до построения модели.
Планируемые результаты обучения
- Приобрести необходимые навыки программирования: работа с переменными, массивами и матрицами; использование условного оператора if и циклов for и while; написание собственных функций и решение базовых алгоритмов.
- Научиться писать отчеты и доклады, совмещая текст, код и графики в одном документе.
- Научиться правильно структурировать данные, обращаться к ним, работать с несколькими наборами данных и визуализировать на различных графиках.
- Научиться импортировать данные из файлов разных форматов, а также собирать данные из интернета.
- Научиться работать со специфическими типами переменных в данных, в частности, с факторными и строковыми переменными, а также сделать первые шаги в анализе текстов.
- Научиться интерпретировать полученные результаты и проверять на основе их различные гипотезы.
- Научиться строить и обучать модели задач регрессии и кластеризации.
Содержание учебной дисциплины
- Введение в RИстория языка программирования R и для чего он используется. Что такое IDE. Установка R и RStudio. Интерфейс RStudio. Работа с консолью и первый скрипт. Арифметические операции, переменные, массивы.
- Основы программированияЦиклы for и while, условный оператор if. Работа с матрицами. Функции. Рекурсия. Базовые алгоритмы.
- RMarkdownОформление докладов, отчетов. Интегрирование кода, графиков и таблиц в отчеты. Связь с LaTeX.
- ДанныеКак выглядит pipeline анализа данных. Типы переменных. Data Frame. List.
- Импорт данныхРазличные источники импорта данных(базы данных, интернет, файлы). Использование пакетов: их установка и подгрузка. Импорт файлов формата .csv, .txt., .xlsx и других.
- Работа с даннымиОчистка и преобразование данных. Работа с несколькими фреймами данных.
- Работа со специфическими типами переменныхРабота с переменными: дата/время, строковые переменные и категориальные (факторные) переменные. Работа с текстом
- Визуализация данныхВизуализация данных с помощью пакета ggplot2. Интерактивные графики с помощью пакета plotly.
- Данные из интернетаИмпорт данных из интернета. Принципы работы с API. Выкачивание данных из VK с помощью API и построение графа друзей. Скраппинг html страниц. Пакет RSelenium. Создание робота для выкачивания цен на авиабилеты.
- Введение в статистику и модель линейной регрессииЛикбез по теории вероятности и математической статистики. Что представляет собой линейная регрессия. Обучение линейной регрессии. Бинарные переменные. Оценки и свойства коэффициентов линейной регрессии. Доверительные интервалы и t-тест.
- Задача кластеризацииK-means. Агломеративная кластеризация.
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.15 * Домашнее задание 1 + 0.15 * Домашнее задание 2 + 0.15 * Домашнее задание 3 + 0.25 * Контрольная работа + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
Рекомендуемая дополнительная литература
- Роберт И., Кабаков - R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - 588с. - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/58703