2017/2018
Анализ данных и технологии работы с данными
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Кто читает:
Департамент социологии
Где читается:
Санкт-Петербургская школа экономики и менеджмента
Когда читается:
3, 4 модуль
Преподаватели:
Воскресенский Вадим Михайлович,
Карепин Виктор Вадимович,
Маслинский Кирилл Александрович,
Мусабиров Илья Леонидович
Язык:
русский
Кредиты:
5
Контактные часы:
54
Программа дисциплины
Аннотация
Курс посвящен углублению навыков, полученных в курсе Programming with Data and Reproducible Research. Изучение особенностей различных методов сбора и агрегации данных. Формирование навыков планирования сбора и обработки данных, прогнозирования сроков. Изучение пакетов ориентированных на обработку специфических данных, таких, например, как сети.
Цель освоения дисциплины
- изучение технологий и методов обработки и анализа данных, включая социально-сетевой анализ, вычислительный анализ текста, а также развитие навыков программирования для анализа данных и построения моделей машинного обучения
Планируемые результаты обучения
- Знать ключевые понятия и задачи анализа данных, в том числе идеи “обучения с учителем” и “обучение без учителя”; основные методы эксплораторного анализа данных; примеры задач классификации и регрессии; понятие воспроизводимого исследования и то, как достигается воспроизводимость исследований
- Уметь применять на практике основные структуры данных в R; производить простейшие статистические операции с помощью языка R; выполнять эксплораторный анализ данных; выбирать метод анализа, соответствующий исследовательской задаче; визуализировать результаты анализа; интерпретировать полученные результаты;
- Иметь навыки (приобрести опыт): чтения и анализа академической литературы по анализу данных, использования современного инструментария, применяемого в анализе данных.
Содержание учебной дисциплины
- Введение в анализ текста в рекомендательных системахИнфраструктура анализа текста в R. Классические пакеты и новые разработки. Обработка текста. Регулярные выражения. Схожесть текстов. Анализ тональности текста. Тематическое моделирование. Количество часов аудиторной работы – 20 Общий объем самостоятельной работы – 40, из них выполнение заданий текущего контроля 20, подготовка к практическим занятиям 20. Формы и методы проведения занятий по разделу: практические занятия в компьютерном классе.
- Анализ и визуализация сетей в R. Социальные сети в бизнесе, экономике, обществеОсновные понятия сетевого анализа. Меры центральности. Модели формирования и эволюции сетей. Алгоритмы Community Detection. Сильные и слабые связи. Пакет igraph. Создание графов. Импорт данных. Визуализация графов. Меры центральности в igraph. Социальный капитал. Примеры сетей (сети организаций, сети аффилиаций, сети дружбы, сети финансовых отношений, сети политических связей) Количество часов аудиторной работы – 15 Общий объем самостоятельной работы – 30, из них выполнение заданий текущего контроля 15, подготовка к практическим занятиям 15. Формы и методы проведения занятий по разделу: практические занятия в компьютерном классе.
- Проектная организация цифровых исследованийРекомендательные системы. Алгоритмы построение рекомендательных систем. Социальные рекомендательные системы. Введение в проектную организацию цифровых исследований. Стадии проекта. Выполнение учебного проекта. Презентация результатов. Количество часов аудиторной работы – 21 Общий объем самостоятельной работы – 64, из них выполнение заданий текущего контроля 20, подготовка к практическим занятиям 30, подготовка к экзамену 14 Формы и методы проведения занятий по разделу: лекции, практические занятия в компьютерном классе.
Элементы контроля
- Контрольная работа
- Домашнее задание
- Подготовка к практикумам и работа на них, включая групповую
- Групповой программный проектОбщая оценка за программный проект выставляется по формуле Опроект = 0,5•Одневник + 0,25•Оотчет + 0,25•Озащита, где Одневник – оценка за индивидуальный рефлексивный дневник проекта («10» если зачтено, «0», если не зачтено») Оотчет – оценка за письменный отчет («10» если зачтено, «0», если не зачтено») Озащита – оценка за защиту проекта и ответы на дополнительные вопросы (по десятибалльной шкале) Участники, заполнившие менее 50% индивидуального дневника, считаются не участвовавшими в выполнении группового проекта, им ставится оценка 0 за групповой программный проект.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.4 * Групповой программный проект + 0.2 * Домашнее задание + 0.25 * Контрольная работа + 0.15 * Подготовка к практикумам и работа на них, включая групповую
Список литературы
Рекомендуемая основная литература
- Provost, F., & Fawcett, T. (2013). Data Science for Business : What You Need to Know About Data Mining and Data-Analytic Thinking (Vol. 1st ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619895
Рекомендуемая дополнительная литература
- Siegel, E. (2013). Predictive Analytics : The Power to Predict Who Will Click, Buy, Lie, or Die. Hoboken, N.J.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=535996