• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2021/2022

Технологии анализа данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 3, 4 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Сироткин Александр Владимирович, Суворова Алёна Владимировна, Сущевский Всеволод Вячеславович, Чуприна Дарья Викторовна
Язык: русский
Кредиты: 5
Контактные часы: 56

Программа дисциплины

Аннотация

Углубляя навыки из первого курса майнора, в “Технологиях анализа данных” мы познакомимся с ключевыми пакетами, ориентированными на обработку сетей, текстов и других специфичных данных. Студенты научатся находить закономерности в данных, представленных в виде связей между элементами (социальные сети, коммуникации, торговые и политические отношения и т.д.), а также извлекать полезную информацию из длинных текстов, не читая их целиком. Кроме того, мы рассмотрим принципы построения рекомендательных систем и закрепим полученные за год навыки в проекте.
Цель освоения дисциплины

Цель освоения дисциплины

  • освоение технологий и методов обработки и анализа тестовых и сетевых данных
  • изучение принципов построения рекомендательных систем
  • развитие навыков программирования для анализа данных на языке R
Планируемые результаты обучения

Планируемые результаты обучения

  • Интерпретирует результаты сетевого анализа в терминах исходной предметной области
  • Интерпретирует результаты текстового анализа в терминах исходной предметной области
  • Организовывает эффективные формы межличностной коммуникации
  • Преобразовывает описание задачи в формулировку в терминах сетевого анализа
  • Проектирует рекомендательную систему для заданной предметной области
  • Разрабатывает программы на языке R для социально-сетевого анализа
  • Разрабатывает программы на языке R для текстового анализа
  • Формулирует основные понятия социально-сетевого анализа
  • Формулирует основные понятия текстового анализа
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Анализ и визуализация сетей
  • Введение в анализ текста
  • Рекомендательные системы. Проектная организация цифровых исследований
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа №1
  • неблокирующий Домашние упражнения
  • неблокирующий Домашнее задание
    Домашнее задание состоит в анализе сетевых данных, предоставленных преподавателем. Работа выполняется индивидуально. Студенту необходимо применить изученные методы выявления сообществ, определить центральность вершин и интерпретировать результаты. Отчет предоставляется в письменной форме. Отчет должен содержать постановку не менее двух исследовательских вопросов, применение методов выявления сообществ и определение центральности вершин, а также визуализацию полученных результатов.
  • неблокирующий Бонусные задания
    Повышение оценки возможно за счет выполнения бонусных заданий, в частности, создания тьюториалов по дополнительным темам анализа данных. Тьюториалы создаются в виде отдельного урока по заданной преподавателями теме на платформе для онлайн-курсов Stepik.org.
  • неблокирующий Контрольная работа №2
  • неблокирующий Групповой проект: групповой отчет
    По итогам проекта, его участники должны прислать отчет, содержащий проведенный анализ данных. В отчет выносятся только финальные результаты и общая логика, промежуточные пункты анализа выносятся в индивидуальные отчеты. Итоговый отчет содержит следующие разделы: 1) анализ текстовых данных и их интерпретация, 2) анализ сетевых данных и их интерпретация, 3) построение рекомендательной системы, 4) практические выводы (чем найденные результаты могут быть полезны гипотетическому владельцу / создателю), 5) программный код проекта, 6) ответы на вопросы и комментарии, полученные в отзывах
  • неблокирующий Групповой проект: защита
    Защита проекта проходит осуществляется в виде видео-презентации проекта на 3-5 минут. В записи презентации участвуют все члены проектной команды.
  • неблокирующий Групповой проект: дневники
    Дневники работы над проектом представляют собой письменные ответы на вопросы о выполненных на текущем шаге заданиях.
  • неблокирующий Групповой проект: индивидуальный отчет
    Итоговый отчет по проекту заполняется индивидуально и описывает процедуру работы над проектом, понимание общей структуры проекта и индивидуальный вклад в разработку, включая конкретные примеры кода, написанного студентом, и обоснование выполненных им действий.
  • неблокирующий Взаимное обсуждение
    После публикации видео выносятся на взаимное обсуждение. Каждый студент индивидуально оценивает три проекта (два по предварительному распределению, один по выбору студента). Для каждого проекта дается общая оценка, формулируются вопросы, даются рекомендации по улучшению, дополнению или изменению, а также приводятся примеры, на которых хотелось бы проверить рекомендательную систему.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 4 модуль
    Итоговая оценка выставляется по сумме баллов всех элементов контроля. Окр 1– оценка за контрольную работу №1 (0-10 баллов), Одз – оценка за домашнее задание (0-10 баллов), Опроект – оценка за групповой программный проект (0-50 баллов), Окр 2 – оценка за контрольную работу №2 (0-10 баллов), Оупр – оценка за прохождение онлайн-упражнений и работа на практикумах (0-10 баллов), Обонус – оценка за бонусные задания (0-10 баллов)., где оценка за проект выставляется как сумма по следующим критериям: Огр_отчет – оценка за групповой письменный отчет (0-10 баллов) Озащита – оценка за защиту проекта (0-3 балла), Оплан -- оценка плана проекта (0-2 балла) Одневник – оценка за индивидуальные дневники по проекту (0-10 баллов) Оинд_отчет – финальный индивидуальный отчет (0-15 баллов) Ообсуждение – взаимное обсуждение проектов (0-10 баллов) Итоговая сумма баллов переводится в оценку делением на 10 и арифметическим округлением
Список литературы

Список литературы

Рекомендуемая основная литература

  • Luke, D. A. (2015). A User’s Guide to Network Analysis in R. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1114415
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983

Рекомендуемая дополнительная литература

  • Kalvas, F. (2015). Introduction to Computational Social Science: Principles and Applications (Texts in Computer Science). Journal of Artificial Societies & Social Simulation, 18(1), 1. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=sih&AN=101774343
  • Kolaczyk E. D., Csárdi G. Statistical analysis of network data with R. – New York : Springer, 2014. – 207 pp.