Бакалавриат
2019/2020
Машинное обучение
Статус:
Курс по выбору (Совместная программа по экономике НИУ ВШЭ и РЭШ)
Направление:
38.03.01. Экономика
Кто читает:
Отдел сопровождения учебного процесса в Совместном бакалавриате ВШЭ-РЭШ
Где читается:
Факультет экономических наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Филатов Артём Андреевич,
Чиркова Надежда Александровна
Язык:
русский
Кредиты:
6
Контактные часы:
64
Программа дисциплины
Аннотация
Курс предназначен для студентов бакалавриата. В ходе курса будут рассмотрены темы, дающие представление об основных понятиях и постановке задач машинного обучения. Студенты научатся выполнять полный цикл построения модели, обучать модели и оценивать их качества, смогут выполнять кластеризацию и визуализацию данных.
Цель освоения дисциплины
- Знает основные понятия и постановки задач машинного обучения
- Знает теоретические основы линейных и логических методов машинного обучения
- Знает принципы построения композиций моделей
- Знает основные метрики качества для регрессии и классификации
- Умеет выполнять полный цикл построения модели
- Умеет обучать основные модели машинного обучения, оценивать их качества
- Умеет выполнять кластеризацию и визуализацию данных
Планируемые результаты обучения
- Знает основные понятия и постановки задач машинного обучения
- Знает теоретические основы линейных, логических и нейросетевых методов машинного обучения
- Знает принципы построения композиций моделей
- Знает основные метрики качества для регрессии и классификации
- Умеет выполнять полный цикл построения модели
- Умеет обучать основные модели машинного обучения, оценивать их качество
- Умеет выполнять кластеризацию и визуализацию данных
Содержание учебной дисциплины
- Введение в машинное обучение и анализ данныхВведение. История анализа данных. Постановки задач в машинном обучении: классификация, регрессия, ранжирование, кластеризация, латентные модели. Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук. Признаки.
- Линейные моделиАналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Регуляризация. Квантильная регрессия (постановка задачи и примеры использования). Методы оценивания обобщающей способности, кросс-валидация. Метрики качества регрессии. Аппроксимация эмпирического риска. Метод опорных векторов. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Метрики качества в задачах классификации. Multiclass- и multilabel-классификация. Особенности многоклассовых задач. Метрики качества.
- Решающие деревьяОбщий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, регуляризация.
- Композиции моделейОбщая идея bias-variance decomposition. Бэггинг и метод случайных подпространств. Случайные леса. Бустинг. Градиентный бустинг над решающими деревьями. Имплементации: xgboost, lightgbm, catboost.
- Обучение без учителяЗадача кластеризации. K-Means, DBSCAN, MeanShift. Иерархическая кластеризация. Визуализация и t-SNE. Представления слов.
- Глубинное обучениеПонятие вычислительного графа, автоматического дифференцирования. Метод обратного распространения ошибки. Методы стохастической оптимизации. Основные виды слоев в нейронных сетях: полносвязные, сверточные, рекуррентные. Популярные архитектуры нейронных сетей: AlexNet, VGG, Resnet, LSTM, GRU, Transformer. Методы регуляризации нейронных сетей: дропаут, батч-нормализация. Основная идея генеративных нейросетевых моделей.
Элементы контроля
- Домашнее задание8 домашних работ
- Работа на занятии
- Контрольная работа
- Итоговая контрольная работа
Промежуточная аттестация
- Промежуточная аттестация (1 модуль)0.6 * Домашнее задание + 0.4 * Контрольная работа
- Промежуточная аттестация (2 модуль)0.3 * Итоговая контрольная работа + 0.15 * Контрольная работа + 0.55 * Промежуточная аттестация (1 модуль)
Список литературы
Рекомендуемая основная литература
- Robert A. Beezer, T. Hastie, R. Tibshirani, & J. Friedman Springer. (2002). The Elements of Statistical Learning: Data Mining, Inference and Prediction. By. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.C9BC2266
Рекомендуемая дополнительная литература
- Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705