• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2019/2020

Анализ данных в R

Лучший по критерию «Новизна полученных знаний»
Статус: Курс по выбору (Социология)
Направление: 39.03.01. Социология
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Преподаватели: Зарманбетов Ахмед Курманалиевич
Язык: русский
Кредиты: 6
Контактные часы: 64

Программа дисциплины

Аннотация

Данная дисциплина предназначена для изучения языка программирования R и его использования для анализа данных. Дисциплина охватывает все стадии анализа данных, от сбора и обработки данных до обучения модели на этих данных. Уделено большое внимание визуализации данных, работе с данными в интернете, а также специфическим типам данных, в частности, работе с текстом.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение такого инструмента как язык программирования R для анализа данных, начиная с импорта и подготовки данных до построения модели.
Планируемые результаты обучения

Планируемые результаты обучения

  • Приобрести необходимые навыки программирования: работа с переменными, массивами и матрицами; использование условного оператора if и циклов for и while; написание собственных функций и решение базовых алгоритмов.
  • Научиться писать отчеты и доклады, совмещая текст, код и графики в одном документе.
  • Научиться правильно структурировать данные, обращаться к ним, работать с несколькими наборами данных и визуализировать на различных графиках.
  • Научиться импортировать данные из файлов разных форматов, а также собирать данные из интернета.
  • Научиться работать со специфическими типами переменных в данных, в частности, с факторными и строковыми переменными, а также сделать первые шаги в анализе текстов.
  • Научиться интерпретировать полученные результаты и проверять на основе их различные гипотезы.
  • Научиться строить и обучать модели задач регрессии и кластеризации.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в R
    История языка программирования R и для чего он используется. Что такое IDE. Установка R и RStudio. Интерфейс RStudio. Работа с консолью и первый скрипт. Арифметические операции, переменные, массивы.
  • Основы программирования
    Циклы for и while, условный оператор if. Работа с матрицами. Функции. Рекурсия. Базовые алгоритмы.
  • RMarkdown
    Оформление докладов, отчетов. Интегрирование кода, графиков и таблиц в отчеты. Связь с LaTeX.
  • Данные
    Как выглядит pipeline анализа данных. Типы переменных. Data Frame. List.
  • Импорт данных
    Различные источники импорта данных(базы данных, интернет, файлы). Использование пакетов: их установка и подгрузка. Импорт файлов формата .csv, .txt., .xlsx и других.
  • Работа с данными
    Очистка и преобразование данных. Работа с несколькими фреймами данных.
  • Работа со специфическими типами переменных
    Работа с переменными: дата/время, строковые переменные и категориальные (факторные) переменные. Работа с текстом
  • Визуализация данных
    Визуализация данных с помощью пакета ggplot2. Интерактивные графики с помощью пакета plotly.
  • Данные из интернета
    Импорт данных из интернета. Принципы работы с API. Выкачивание данных из VK с помощью API и построение графа друзей. Скраппинг html страниц. Пакет RSelenium. Создание робота для выкачивания цен на авиабилеты.
  • Введение в статистику и модель линейной регрессии
    Ликбез по теории вероятности и математической статистики. Что представляет собой линейная регрессия. Обучение линейной регрессии. Бинарные переменные. Оценки и свойства коэффициентов линейной регрессии. Доверительные интервалы и t-тест.
  • Задача кластеризации
    K-means. Агломеративная кластеризация.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.15 * Домашнее задание 1 + 0.15 * Домашнее задание 2 + 0.15 * Домашнее задание 3 + 0.25 * Контрольная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131

Рекомендуемая дополнительная литература

  • Роберт И., Кабаков - R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - 588с. - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/58703