• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2017/2018

Анализ данных и технологии работы с данными

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 3, 4 модуль
Преподаватели: Воскресенский Вадим Михайлович, Карепин Виктор Вадимович, Маслинский Кирилл Александрович, Мусабиров Илья Леонидович
Язык: русский
Кредиты: 5

Программа дисциплины

Аннотация

Курс посвящен углублению навыков, полученных в курсе Programming with Data and Reproducible Research. Изучение особенностей различных методов сбора и агрегации данных. Формирование навыков планирования сбора и обработки данных, прогнозирования сроков. Изучение пакетов ориентированных на обработку специфических данных, таких, например, как сети.
Цель освоения дисциплины

Цель освоения дисциплины

  • изучение технологий и методов обработки и анализа данных, включая социально-сетевой анализ, вычислительный анализ текста, а также развитие навыков программирования для анализа данных и построения моделей машинного обучения
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать ключевые понятия и задачи анализа данных, в том числе идеи “обучения с учителем” и “обучение без учителя”; основные методы эксплораторного анализа данных; примеры задач классификации и регрессии; понятие воспроизводимого исследования и то, как достигается воспроизводимость исследований
  • Уметь применять на практике основные структуры данных в R; производить простейшие статистические операции с помощью языка R; выполнять эксплораторный анализ данных; выбирать метод анализа, соответствующий исследовательской задаче; визуализировать результаты анализа; интерпретировать полученные результаты;
  • Иметь навыки (приобрести опыт): чтения и анализа академической литературы по анализу данных, использования современного инструментария, применяемого в анализе данных.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в анализ текста в рекомендательных системах
    Инфраструктура анализа текста в R. Классические пакеты и новые разработки. Обработка текста. Регулярные выражения. Схожесть текстов. Анализ тональности текста. Тематическое моделирование. Количество часов аудиторной работы – 20 Общий объем самостоятельной работы – 40, из них выполнение заданий текущего контроля 20, подготовка к практическим занятиям 20. Формы и методы проведения занятий по разделу: практические занятия в компьютерном классе.
  • Анализ и визуализация сетей в R. Социальные сети в бизнесе, экономике, обществе
    Основные понятия сетевого анализа. Меры центральности. Модели формирования и эволюции сетей. Алгоритмы Community Detection. Сильные и слабые связи. Пакет igraph. Создание графов. Импорт данных. Визуализация графов. Меры центральности в igraph. Социальный капитал. Примеры сетей (сети организаций, сети аффилиаций, сети дружбы, сети финансовых отношений, сети политических связей) Количество часов аудиторной работы – 15 Общий объем самостоятельной работы – 30, из них выполнение заданий текущего контроля 15, подготовка к практическим занятиям 15. Формы и методы проведения занятий по разделу: практические занятия в компьютерном классе.
  • Проектная организация цифровых исследований
    Рекомендательные системы. Алгоритмы построение рекомендательных систем. Социальные рекомендательные системы. Введение в проектную организацию цифровых исследований. Стадии проекта. Выполнение учебного проекта. Презентация результатов. Количество часов аудиторной работы – 21 Общий объем самостоятельной работы – 64, из них выполнение заданий текущего контроля 20, подготовка к практическим занятиям 30, подготовка к экзамену 14 Формы и методы проведения занятий по разделу: лекции, практические занятия в компьютерном классе.
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Домашнее задание
  • неблокирующий Подготовка к практикумам и работа на них, включая групповую
  • неблокирующий Групповой программный проект
    Общая оценка за программный проект выставляется по формуле Опроект = 0,5•Одневник + 0,25•Оотчет + 0,25•Озащита, где Одневник – оценка за индивидуальный рефлексивный дневник проекта («10» если зачтено, «0», если не зачтено») Оотчет – оценка за письменный отчет («10» если зачтено, «0», если не зачтено») Озащита – оценка за защиту проекта и ответы на дополнительные вопросы (по десятибалльной шкале) Участники, заполнившие менее 50% индивидуального дневника, считаются не участвовавшими в выполнении группового проекта, им ставится оценка 0 за групповой программный проект.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.4 * Групповой программный проект + 0.2 * Домашнее задание + 0.25 * Контрольная работа + 0.15 * Подготовка к практикумам и работа на них, включая групповую
Список литературы

Список литературы

Рекомендуемая основная литература

  • Provost, F., & Fawcett, T. (2013). Data Science for Business : What You Need to Know About Data Mining and Data-Analytic Thinking (Vol. 1st ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619895

Рекомендуемая дополнительная литература

  • Siegel, E. (2013). Predictive Analytics : The Power to Predict Who Will Click, Buy, Lie, or Die. Hoboken, N.J.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=535996