Магистратура
2019/2020
Современные методы анализа данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс обязательный (Информационные системы и взаимодействие человек-компьютер)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент информатики
Когда читается:
1-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Информационные системы и взаимодействие человек-компьютер
Язык:
русский
Кредиты:
4
Контактные часы:
44
Программа дисциплины
Аннотация
Целью освоения дисциплины «Современные методы анализа данных» является основных аппаратов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей. В результате изучения дисциплины у студента будет сформировано представление об основных методах машинного обучения, соответствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать как развитию вероятностной интуиции и разработке моделей и методов машинного обучения, так и практическому их применению.
Цель освоения дисциплины
- Целью освоения дисциплины «Современные методы анализа данных» является основных аппаратов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей.
Планируемые результаты обучения
- Применяет основные конструкции языка Python и библиотек для анализа данных
- Интерпретирует результаты статистического анализа с учетом ограничений использованных методов
- Обосновывает выбор методов и инструментария для проверки гипотез
- Знает основные понятия машинного обучения
- Строит предсказательные модели на языке Python
- Интерпретирует результаты предсказания
- Строит ансамблевые модели на языке Python
- Оценивает качество модели
- Выявляет смещения (bias) в моделях
- Формулирует рекомендации в предметной области по результатам анализа данных
Содержание учебной дисциплины
- Введение, основные понятия анализа данных, инструментарийОбласть науки о данных: главные методы, техники, темы и прикладные возможности. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Воспроизводимые исследования: возможности и ключевые цели. Инструменты R, RStudio. Инструменты Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.). Математика для анализа данных
- Выводы на основе данных: проверка гипотез и статистические тестыВизуализация и агрегация данных: фильтрация, объединение, сортировка данных. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Доверительные интервалы и бутстрэппинг. Тестирование статистических гипотез. Нахождение зависимостей в данных. A/B-тестирование
- Предсказания на основе данных. Классификация и регрессияВозможности применения статистического обучения в информационных системах. Машинное обучение с учителем. Задачи классификации и регрессии. Деревья решений, модели регрессии. Клиентская аналитика, предсказание оттока пользователей, оценка LTV
- Ансамбли моделейОбъединение моделей. Усреднение, бутстрап, бэггинг. Бустинг: AdaBoost. Алгоритм Random Forest.
- Интерпретация моделейМодели, допускающие интерпретацию. Примеры задач, требующих интерпретации. Интерпретация моделей “черного ящика”. Глобальная интерпретация: важность признаков, ICE графики. Локальная интерпретация: метод LIME
- Причинно-следственные связиПроблема выявления причинно-следственных связей. Случайные эксперименты. Выборки и смещения. Мэтчинг, стратификация. Оценки ATE, ATC
Элементы контроля
- Дневники проекта
- Проект
- Экзамен
- ЭссеДомашнее задание представляет собой структурированное эссе по одной из статей, связанных с методологией или применением A/B тестирования. Статья выбирается из предложенного преподавателем списка или самостоятельно студентом по согласованию с преподавателем.
- Упражнения
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.25 * Дневники проекта + 0.3 * Проект + 0.1 * Упражнения + 0.2 * Экзамен + 0.15 * Эссе
Список литературы
Рекомендуемая основная литература
- Вьюгин В.В. - Математические основы машинного обучения и прогнозирования - Московский центр непрерывного математического образования - 2014 - 304с. - ISBN: 978-5-4439-2014-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/56397
Рекомендуемая дополнительная литература
- Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914