Машинное обучение

Магистратура 2019/2020

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Статус: Курс по выбору (Науки о данных)

Направление: 01.04.02. Прикладная математика и информатика

Кто читает: Базовая кафедра Яндекс

Где читается: Факультет компьютерных наук

Когда читается: 1-й курс, 3, 4 модуль

Формат изучения: без онлайн-курса

Преподаватели: Казеев Никита Александрович

Прогр. обучения: Науки о данных

Язык: русский

Кредиты: 8

Контактные часы: 60

Полная версия программы учебной дисциплины

Аннотация

Теория обучения машин (machine learning, машинное обучение) находится на стыке прикладной статистики, численных методов оптимизации, дискретного анализа, и за последние 50 лет оформилась в самостоятельную математическую дисциплину. Методы машинного обучения составляют основу ещё более молодой дисциплины — интеллектуального анализа данных (data mining). В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами. Все методы излагаются по единой схеме: исходные идеи и эвристики; их формализация и математическая теория; описание алгоритма в виде слабо формализованного псевдокода; анализ достоинств, недостатков и границ применимости; пути устранения недостатков; сравнение с другими методами. примеры прикладных задач.

Цель освоения дисциплины

Знать типологию задач машинного обучения
Уметь работать с различными типами данных
Владеть методами из библиотеки scikit-learn
Знать основные модели, используемые для решения задач классификации и регрессии
Владеть методами теоретического исследования моделей машинного обучения
Знать концепцию переобучения, причины возникновения этого явления, методы его преодоления

Планируемые результаты обучения

владеть методами из библиотеки scikit-learn
знать основные модели, используемые для решения задач классификации и регрессии
владеть методами теоретического исследования моделей машинного обучения
знать концепцию переобучения, причины возникновения этого явления, методы его преодоления
уметь подбирать гиперпараметры модели
уметь работать с различными типами данных

Содержание учебной дисциплины

Введение.
Постановка задач машинного обучения, примеры
Несбалансированные выборки. Счетчики
Работа с несбалансированными выборками. Модификация функций потерь. Работа с категориальными признаками.
Прогнозирование временных рядов
Задача прогнозирования временных рядов. Примеры приложений. Экспоненциальное скользящее среднее. Модель Хольта. Модель Тейла-Вейджа. Модель Хольта-Уинтерса. Адаптив-ная авторегрессионная модель. Следящий контрольный сигнал. Модель Тригга-Лича. Адаптивная селективная модель. Адаптивная композиция моделей. Адаптация весов с регуляризацией.
Байесовские методы классификации
Принцип максимума апостериорной вероятности. Теорема об оптимальности байесовского классификатора. Оценивание плотности распределения: три основных подхода. Наивный бай-есовский классификатор. Непараметрическое оценивание плотности. Ядерная оценка плотно-сти Парзена-Розенблатта. Одномерный и многомерный случаи. Метод парзеновского окна. Выбор функции ядра. Выбор ширины окна, переменная ширина окна. Параметрическое оце-нивание плотности. Нормальный дискриминантный анализ. Многомерное нормальное рас-пределение, геометрическая интерпретация. Выборочные оценки параметров многомерного нормального распределения. Квадратичный дискриминант. Вид разделяющей поверхности. Подстановочный алгоритм, его недостатки и способы их устранения. Линейный дискрими-нант Фишера. Проблемы мультиколлинеарности и переобучения. Регуляризация ковариаци-онной матрицы. Параметрический наивный байесовский классификатор. Смесь распределе-ний. EM-алгоритм как метод простых итераций для решения системы нелинейных уравнений. Выбор числа компонентов смеси. Пошаговая стратегия. Априорное распределение Дирихле. Смесь многомерных нормальных распределений. Сеть радиальных базисных функций (RBF) и применение EM-алгоритма для её настройки. Сравнение RBF-сети и SVM с гауссовским яд-ром.
Градиентные линейные методы
Линейный классификатор, непрерывные аппроксимации пороговой функции потерь. Связь с методом максимума правдоподобия. Метод стохастического градиента и частные случаи: адаптивный линейный элемент ADALINE, перcептрон Розенблатта, правило Хэбба. Теорема Новикова о сходимости. Доказательство теоремы Новикова. Эвристики: инициализация ве-сов, порядок предъявления объектов, выбор величины градиентного шага, «выбивание» из локальных минимумов. Метод стохастического среднего градиента SAG. Проблема мульти-коллинеарности и переобучения, редукция весов (weight decay). Байесовская регуляризация. Принцип максимума совместного правдоподобия данных и модели. Квадратичный (гауссов-ский) и лапласовский регуляризаторы. Настройка порога решающего правила по критерию числа ошибок I и II рода. Линейные методы классификации. Логистическая регрессия
Соревнования по анализу данных
Соревнования по анализу данных. Платформа Kaggle. Feature engineering. Подбор гиперпараметров модели.
Решающие деревья и случайные леса
Понятие логической закономерности. Эвристическое, статистическое, энтропийное определе-ние информативности. Асимптотическая эквивалентность статистического и энтропийного определения. Сравнение областей эвристических и статистических закономерностей. Разно-видности закономерностей: конъюнкции пороговых предикатов (гиперпараллелепипеды), синдромные правила, шары, гиперплоскости. Бинаризация признаков. Алгоритм разбиения области значений признака на информативные зоны. Решающие списки и деревья. Редукция решающих деревьев: предредукция и постредукция. Небрежные решающие деревья (oblivious decision tree). Случайные леса.
Метрические алгоритмы
Метод ближайших соседей (kNN) и его обобщения. Обобщённый метрический классификатор, понятие отступа. Метод потенциальных функций, градиентный алгоритм. Отбор эталонов и оптимизация метрики
Метрики качества, отбор признаков, работа с пропущенными значениями
Критерии качества классификации: чувствительность и специфичность, ROC-кривая и AUC, точность и полнота, AUC-PR. Внутренние и внешние критерии. Эмпирические и аналитиче-ские критерии. Скользящий контроль, разновидности эмпирических оценок скользящего кон-троля. Критерий непротиворечивости. Разновидности аналитических оценок. Регуляризация. Критерий Акаике (AIC). Байесовский информационный критерий (BIC). Оценка Вапника-Червоненкиса. Агрегированные и многоступенчатые критерии. Сложность задачи отбора при-знаков. Полный перебор. Метод добавления и удаления, шаговая регрессия. Поиск в глубину, метод ветвей и границ. Усечённый поиск в ширину, многорядный итерационный алгоритм МГУА. Генетический алгоритм, его сходство с МГУА. Случайный поиск и Случайный поиск с адаптацией (СПА).
Метод опорных векторов
Оптимальная разделяющая гиперплоскость. Понятие зазора между классами (margin). Случаи линейной разделимости и отсутствия линейной разделимости. Связь с минимизацией регуля-ризованного эмпирического риска. Кусочно-линейная функция потерь. Задача квадратичного программирования и двойственная задача. Понятие опорных векторов. Рекомендации по вы-бору константы C. Функция ядра (kernel functions), спрямляющее пространство, теорема Мерсера. Способы конструктивного построения ядер. Примеры ядер. Метод релевантных векторов RVM. Регуляризации для отбора признаков: LASSO SVM, Elastic Net SVM, SFM, RFM. ё
Линейная регрессия и метод главных компонент
Задача регрессии, многомерная линейная регрессия. Метод наименьших квадратов, его веро-ятностный смысл и геометрический смысл. Сингулярное разложение. Проблемы мультикол-линеарности и переобучения. Регуляризация. Гребневая регрессия. Лассо Тибширани, сравне-ние с гребневой регрессией. Метод главных компонент и декоррелирующее преобразование Карунена-Лоэва, его связь с сингулярным разложением.
Нелинейная регрессия и нестандартные функции потерь
Нелинейная параметрическая регрессия. Метод Ньютона-Рафсона, метод Ньютона-Гаусса. Одномерные нелинейные преобразования признаков: метод настройки с возвращениями (backfitting) Хасти-Тибширани. Непараметрическая регрессия. Сглаживание. Локально взве-шенный метод наименьших квадратов и оценка Надарая- Ватсона. Выбор функции ядра. Вы-бор ширины окна сглаживания. Сглаживание с переменной шириной окна. Проблема выбро-сов и робастная непараметрическая регрессия. Алгоритм LOWESS. Неквадратичные функции потерь. Метод наименьших модулей. Квантильная регрессия. Пример прикладной задачи: прогнозирование потребительского спроса. Робастная регрессия, функция Мешалкина. SVM-регрессия.
Многоклассовая классификация. Разреженные признаки. Библиотека VW
Многоклассовая классификация. Стратегии многоклассовой классификации. Классификация с пересекающимися классами. Работа с разреженными признаками. Библиотека Vowpal Wabbit.

Элементы контроля

Домашнее задание
Домашнее задание
Экзамен
Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.3 * Домашнее задание + 0.3 * Домашнее задание + 0.4 * Экзамен

Программа дисциплины