• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Programming (R)

2023/2024
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
3 year, 2 module

Instructor

Программа дисциплины

Аннотация

Курс познакомит студентов с основами языка программирования R, кроме того, учебная программа поможет углубиться в изучение темы анализа и обработки данных. Для успешного прохождения дистанционного курса потребуется всего лишь 5-6 часов в неделю.
Цель освоения дисциплины

Цель освоения дисциплины

  • Данный курс знакомит с основами программирования и обработки данных в R. Курс в первую очередь предназначен для теоретических лингвистов, хотя и не предполагает никаких предварительных знаний в какой-то конкретной области. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе со строками и обработке естественного языка. Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование. Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных. В части курса, посвященной статистическому анализу данных, мы обсудим основы статистического вывода и обсудим базовые статистические тесты. Кроме того мы обсудим методы построения регрессий и кластеризации, что станет хорошей базой для дальнейших курсов посвященным продвинутому статистическому анализу и машинному обучению. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет основами работы в R.
  • Владеть навыками работы с базовыми структурами в R
  • научится работать с датафреймами в dplyr
  • изучит как работают циклы в R, и как их избегать
  • познакомится с понятием tidy data
  • научится визуализировать разные типы данных в R
  • научатся использовать фасетизацию
  • научится делать html документы в R
  • научится делать интерактивную визуализацию
  • научится работать с пакетом lingtypology и строить карты языков
  • научится переводить набор текстов в формат tidytext
  • научится считать частотность слова и определять наиболее важные для текста слова
  • научится считать TfIdf для корпуса текстов
  • научится применять статистические тесты в R
  • научится работать с выдачей статистических функций в R
  • научится работать со строками в R
  • научится работать с регулярными выражениями в R
  • изучит понятие расстояние между строками и научиться его считать
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в R: основные элементы, функции, циклы
  • Продвинутая обработка данных: пакет tidyverse. Циклы в R
  • Работа со строками: строки в R, регулярные выражения
  • Визуализация данных: ggplot2
  • Интерактивная визуализация: rmarkdown, plotly, lingtypology
  • Работа с текстами: пакет tidytext
  • Введение в статистику: основы фриквентисткой статистики, формулировка гипотез
Элементы контроля

Элементы контроля

  • неблокирующий Тест 1
  • неблокирующий Тест 2
  • неблокирующий Тест 5
  • неблокирующий Тест 6
  • неблокирующий Тест 7
  • неблокирующий Тест 8
  • неблокирующий Тест 9
  • неблокирующий Тест 10
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 2nd module
    0.125 * Тест 1 + 0.125 * Тест 10 + 0.125 * Тест 2 + 0.125 * Тест 5 + 0.125 * Тест 6 + 0.125 * Тест 7 + 0.125 * Тест 8 + 0.125 * Тест 9
Список литературы

Список литературы

Рекомендуемая основная литература

  • An introduction to R : a programming environment for data analysis and graphics, Venables, W. N., 2009

Рекомендуемая дополнительная литература

  • Applied spatial data analysis with R, Bivand, R. S., 2008
  • Методы прикладной статистики в R и Excel : учеб. пособие для вузов, Буре, В. М., 2018