• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Технологии анализа данных

Статус: Майнор
Когда читается: 3, 4 модуль
Онлайн-часы: 22
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 5
Контактные часы: 42

Программа дисциплины

Аннотация

Углубляя навыки из первого курса майнора, в “Технологиях анализа данных” мы познакомимся с ключевыми пакетами, ориентированными на обработку сетей, текстов и других специфичных данных. Студенты научатся находить закономерности в данных, представленных в виде связей между элементами (социальные сети, коммуникации, торговые и политические отношения и т.д.), а также извлекать полезную информацию из длинных текстов, не читая их целиком. Кроме того, мы рассмотрим принципы построения рекомендательных систем и закрепим полученные за год навыки в проекте.
Цель освоения дисциплины

Цель освоения дисциплины

  • освоение технологий и методов обработки и анализа тестовых и сетевых данных
  • изучение принципов построения рекомендательных систем
  • развитие навыков программирования для анализа данных на языке R
Планируемые результаты обучения

Планируемые результаты обучения

  • Интерпретирует результаты сетевого анализа в терминах исходной предметной области
  • Интерпретирует результаты текстового анализа в терминах исходной предметной области
  • Организовывает эффективные формы межличностной коммуникации
  • Преобразовывает описание задачи в формулировку в терминах сетевого анализа
  • Проектирует рекомендательную систему для заданной предметной области
  • Разрабатывает программы на языке R для социально-сетевого анализа
  • Разрабатывает программы на языке R для текстового анализа
  • Формулирует основные понятия социально-сетевого анализа
  • Формулирует основные понятия текстового анализа
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Анализ и визуализация сетей
  • Введение в анализ текста
  • Рекомендательные системы. Проектная организация цифровых исследований
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа №1
    Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по сетевому анализу. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
  • неблокирующий Домашнее задание
    Домашнее задание состоит в анализе сетевых данных, предоставленных преподавателем. Работа выполняется индивидуально. Студенту необходимо применить изученные методы выявления сообществ, определить центральность вершин и интерпретировать результаты. Отчет предоставляется в письменной форме. Отчет должен содержать постановку не менее двух исследовательских вопросов, применение методов выявления сообществ и определение центральности вершин, а также визуализацию полученных результатов.
  • неблокирующий Упражнения
    Для закрепления навыков по работе с инструментарием студентам предлагается выполнить онлайн-упражнения на закрепление и проверку усвоения материала на онлайн-платформе. Их прохождение играет формативную роль: количество попыток не ограничивается. Работа выполняется на дому и сдается до установленной даты экзамена.
  • неблокирующий Бонусные задания
    Повышение оценки возможно за счет выполнения бонусных заданий, в частности, создания тьюториалов по дополнительным темам анализа данных. Тьюториалы создаются в виде отдельного урока по заданной преподавателями теме на платформе для онлайн-курсов Stepik.org.
  • неблокирующий Групповой проект: групповой отчет
    По итогам проекта, его участники должны прислать отчет, содержащий проведенный анализ данных. В отчете по заданной структуре описываются результаты работы над проектов и ответы на вопросы, полученные в результаты взаимной оценки
  • блокирует часть оценки/расчета Групповой проект: дневники
    Дневники работы над проектом представляют собой письменные ответы на вопросы о выполненных на текущем шаге заданиях.
  • неблокирующий Групповой проект: защита идеи
    Защита проекта осуществляется в виде видео-презентации проекта на 3-5 минут. В записи презентации участвуют все члены проектной команды.
  • неблокирующий Групповой проект: план
    Описание плана проекта по схеме (см. пример задания)
  • неблокирующий Взаимное обсуждение
    После публикации видео проектов выносятся на взаимное обсуждение. Каждый студент индивидуально оценивает три проекта (два по предварительному распределению, один по выбору студента). Для каждого проекта дается общая оценка, формулируются вопросы, даются рекомендации по улучшению, дополнению или изменению, а также приводятся примеры, на которых хотелось бы проверить рекомендательную систему.
  • неблокирующий Контрольная работа №2
    Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по тематике текстового анализа. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
  • неблокирующий Индивидуальный отчет
    Индивидуальный отчет по проект представляет собой доработку группового проекта по индивидуальному заданию
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    0.1 * Бонусные задания + 0.1 * Взаимное обсуждение + 0.1 * Групповой проект: групповой отчет + 0.1 * Групповой проект: дневники + 0.03 * Групповой проект: защита идеи + 0.02 * Групповой проект: план + 0.1 * Домашнее задание + 0.15 * Индивидуальный отчет + 0.1 * Контрольная работа №1 + 0.1 * Контрольная работа №2 + 0.1 * Упражнения
Список литературы

Список литературы

Рекомендуемая основная литература

  • Luke, D. A. (2015). A User’s Guide to Network Analysis in R. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1114415
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983

Рекомендуемая дополнительная литература

  • Kalvas, F. (2015). Introduction to Computational Social Science: Principles and Applications (Texts in Computer Science). Journal of Artificial Societies & Social Simulation, 18(1), 1. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=sih&AN=101774343
  • Kolaczyk E. D., Csárdi G. Statistical analysis of network data with R. – New York : Springer, 2014. – 207 pp.