• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Manipulation in R

2025/2026
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Delivered at:
Department of Educational Programmes
Course type:
Elective course
When:
1 year, 3 module

Instructors

Программа дисциплины

Аннотация

R является популярным инструментом среди специалистов по анализу данных как в академической сфере, так и в бизнесе. Этот язык довольно прост в изучении, но обладает обширным набором функций для работы с данными. Вместе с проведением сложного анализа R также отлично подходит для предварительной обработки данных и является мощной альтернативой Excel. Данный курс направлен на освоение основных принципов предварительной обработки данных в R, которым порой на курсах по анализу данных удаляется мало внимания. На этом курсе вы научитесь управлять данными с использованием пакетов tidyverse и data.table; столкнетесь с самыми часто встречаемыми трудностями при работе с сырыми базами данных и научитесь их преодолевать; узнаете как менять масштаб датафреймов и строить сводные таблицы в R. Здесь вы познакомитесь с функциями семейства apply, с утилитами R, помогающими в работе с регулярными выражениями и календарными данными.
Цель освоения дисциплины

Цель освоения дисциплины

  • Научить студентов обрабатывать данные в R и готовить их к проведению статистического анализа.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент умеют создавать такие объекты как переменные, векторы, датафреймы, записать в них данные R
  • Студенты умеют оформлять код в R Markdown
  • Студенты могут импортировать и экспортировать базы данных в R
  • Студенты умеют работать с разными типами данных и изменять типы данных в R
  • Студенты умеют готовить базы данных в R к анализу
  • Студенты умеют применять функции семейства apply при работе с табличными данными
  • Студенты умеют применять функции из пакета ggplot2 для визуализации данных в R
  • Студенты умеют строить сводные таблицы в R, изменять формат табличных данных в R: переводить из длинного формата в широкий и наоборот, объединять данные из разных таблиц в R
  • Студенты умеют работать с регулярными выражениями и календарными данными в R
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Синтаксис R, базовые функции и операции в R
  • Работа и оформление кода в Markdown
  • Импорт и экспорт данных. Пакет tidyverse.
  • Предварительная обработка данных
  • Визуализация в R. Пакет ggplot2
  • Изменение формата табличных данных: длинное и широкое представление данных. Сводные таблицы
  • Регулярные выражения и календарные данные
Элементы контроля

Элементы контроля

  • неблокирующий Итоговый проект
    В течение модуля студентам будет предложено выполнить практическую работу в R, которая подразумевает работу с данными, их обработку, аналитику и визуализацию. По итогам необходимо предоставить код в R, решающий цели и задачи проекта. Проект необходимо сдать в установленный дедлайн до начала сессионной недели, а на сессии необходимо его представить в виде небольшого устного рассказа о проделанной работе.
  • неблокирующий Финальный тест
    Финальный тест направлен на проверку освоения материала за весь курс. Выполнение теста предполагается во время последнего учебного занятия с ограничением во времени. Финальный тест включает как задания закрытого типа (выбор ответа из списка, соотнесение, перетаскивание в текст и т.д.), так и задания открытого типа (краткий и развернутый ответ).
  • неблокирующий Мини-тесты
    После изучения новой темы студентам предлагается в течение недели продемонстрировать и проверить свои знания при помощи небольших тестов. Тесты не имеют ограничения по времени выполнения, но их необходимо завершить до установленного дедлайна (обычно до начала следующего занятия). Тесты включают в себя задания разного типа: закрытого (выбор ответа из списка, соотнесение, перетаскивание в текст и т.д.), открытого (краткий и развернутый ответ), а также написание кода, выполняющего определенную задачу.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 3rd module
    0.6 * Итоговый проект + 0.1 * Мини-тесты + 0.3 * Финальный тест
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hadley, W. (2016). Ggplot2 : Elegant Graphics for Data Analysis. New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1175341

Рекомендуемая дополнительная литература

  • R в действии : анализ и визуализация данных в программе R, Кабаков, Р. И., 2014
  • Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
  • Роберт, И. R в действии : руководство / И. Роберт, Кабаков , перевод с английского А. Н. Киселева. — 3-е изд. — Москва : ДМК Пресс, 2023. — 768 с. — ISBN 978-5-93700-173-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/348083 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Юсупова Элен Магомедовна
  • Тарасов Сергей Владимирович