• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Введение в Науку о данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Цифровые методы в гуманитарных науках)
Направление: 45.04.03. Фундаментальная и прикладная лингвистика
Когда читается: 1-й курс, 1-4 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Цифровые методы в гуманитарных науках
Язык: русский
Кредиты: 8
Контактные часы: 80

Программа дисциплины

Аннотация

Курс читается студентам 1 курса магистерской программы "Цифровые методы в гуманитарных науках". В ходе данного курса студенты знакомятся с основами работы в R и RStudio, осваивают базовые методы сбора, обработки и трансформации данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование представления о различных способах работы с данными.
  • Ознакомление с методами визуализации результатов анализа датасетов.
  • Развитие умения писать программы с использованием методов статистического, кластерного и регрессионного анализа.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент освоит работу с базовыми объектами, функциями, пакетами, а также научится создавать собственные функции и сложные циклы.
  • Студент применяет трансформации данных: tidyverse, dplyr; освоит работу со строками и текстами: tidytext, udpipe; сможет осуществлять сбор данных из интернета: rvest. OCR.
  • Студент способен создавать визуализации данных: ggplot2, ggiraph; представление данных: rmarkdown, shiny; осуществлять работу с картографическими данными.
  • Студент решает задачи по программированию , демонстрируя владение работой со строками и текстом.
  • Студент анализирует данные путём применения инструментов: время, карты, OCR.
  • Студент производит вычисления, применяя знания по описательной и симуляционной статистике, z-преобразованию.
  • Студент создает пуассоновскую регрессию, позволяющую предсказывать результаты показателя X на основе имеющихся данных показателя Y.
  • Студент способен создавать метрики расстояний, k-means, иерархические кластеризации, визуализации деревьев.
  • Студент применяет PCA для анализа различных датасетов.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Основы R
  • Тема 2. Трансформация данных
  • Тема 3. Визуализация и представление данных
  • Тема 4. Работа со строками и текстом
  • Тема 5. Необычные источники данных: время, карты, OCR
  • Тема 6. Основы статистики
  • Тема 7. Регрессионный анализ.
    Корреляция и простая линейная регрессия. Множественная регрессия, link-functions. Логистическая и мультиномиальная регрессия.
  • Тема 8. Кластеризация
  • Тема 9. Методы уменьшения размерности: PCA, CA, MCA, MDS, t-SNE
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельные работы
    Экзамен проводится в форме двух хакатонов: один проходит в конце втором модуля, а второй проходит в конце четвертого модуля. В ходе хакатона студент может подключится в любое время. Во время хакатона студенты делятся на команды и совместно решают поставленные задачи, используя любые доступные средства (в том числе любые удобные участникам средства связи друг с другом). Теоретически студент не обязан обладать компьютером, лишь каким-то средством связи с преподавателем и другими участниками. Для участия в хакатоне студент обязан выбрать команду, в которой он хочет работать (в том числе состоящей из одного человека), и пройти по ссылке на платформе Github под своим эккаунтом. Во время хакатона студент волен делать все, что считает нужным. Нарушения связи любой длительности считаются досадной неприятностью, которая ни в коем случае не должны служить причиной для лискриминационного отстранения студента от участия в хакатоне. Все элементы контроля по курсу подлежат пересдаче в виде 2-ух часовой контрольной работы по всем темам, во время которой можно пользоваться любыми материалами. Время проведения устанавливается факультетом гуманитарных наук.
  • неблокирующий самостоятельные работы
    Шесть самостоятельных работ в течение курса
  • неблокирующий итоговый хакатон
    Экзамен проводится в форме двух хакатонов: один проходит в конце второго модуля, а второй проходит в конце четвертого модуля (25 июня). В ходе хакатона студент может подключится в любое время. Во время хакатона студенты делятся на команды и совместно решают поставленные задачи, используя любые доступные средства (в том числе любые удобные участникам средства связи друг с другом). Студенту понадобится компьютер и любое средство связи с участниками команды (не обязательно звуковой или видеосвязи, достаточно текстового канала). Для участия в хакатоне студент обязан выбрать команду, в которой он хочет работать (в том числе состоящей из одного человека), и пройти по ссылке на платформе Github под своим эккаунтом. Во время хакатона студент волен делать все, что считает нужным. Нарушения связи любой длительности считаются досадной неприятностью, которая ни в коем случае не должны служить причиной для дискриминационного отстранения студента от участия в хакатоне.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    О=1/6×∑(i=1)(6)(10× m(i,k))
Список литературы

Список литературы

Рекомендуемая основная литература

  • Horton, N. J., & Kleinman, K. (2015). Using R and RStudio for Data Management, Statistical Analysis, and Graphics (Vol. Second edition). Boca Raton, FL: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=957543

Рекомендуемая дополнительная литература

  • R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
  • Wickham, H. (2015). Advanced R, Second Edition. Boca Raton, FL: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=934735