• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Дополнительные главы статистической теории обучения

Статус: Курс обязательный (Науки о данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 1, 2 модуль
Формат изучения: Full time
Прогр. обучения: Науки о данных
Язык: русский
Кредиты: 5

Программа дисциплины

Аннотация

Курс фокусируется на теории, стоящей за алгоритмами классификации и реграссии. Обсуждаются общие вероятностные подходы к задачам предсказания, после чего вводятся элементы теории Вапника-Червоненкиса, предоставляющие теоретическии гарантии минимизации эмпирического риска в контексте бинарной классификации. Также обсуждаются линейные методы и техники регуляризации. Последняя часть посвящена нелинейным алгоритмам: деревьям, ансамблям, SVM, нейронным сетям.
Цель освоения дисциплины

Цель освоения дисциплины

  • Получить представление о теоретических основах машинного обучения.
Результаты освоения дисциплины

Результаты освоения дисциплины

  • Иметь представление о постановке задачи машинного обучения в терминах минимизации эмпирического риска
  • Иметь представление о задаче восстановления параметров распределения, уметь строить доверительные интервалы для параметров распределений по эмпирическим данных
  • Иметь представление о теоретических свойствах регуляризации
  • Уметь проводить теоретический анализ линейных моделей классификации
  • Уметь использовать теорию Вапника-Червоненкиса для анализа моделей машинного обучения
  • Иметь представление о теоретических свойствах ансамблей моделей, полученных с помощью бустинга.
  • Иметь представление о теоретических свойствах алгоритма SVM.
  • Иметь представление о теоретических свойствах ядровых моделей в машинном обучении
  • Иметь представление о теоретических свойствах методов оптимизации на основе стохастического градиентного спуска
  • Иметь представление о теоретических аспектах обучения нейронных сетей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы
    Задачи классификации и регрессии. Функции потерь. Понятие риска. Байесовский классификатор. Консистентность. No Free Lunch теоремы. PAC learning. Минимизация эмпирического риска. Выпуклая релаксация. Bias-Variance trade-off
  • Линейная регрессия
    Оценки максимального правдоподобия и метод наименьших квадратов, матрицы проекции, свойства оценок, полученных по методу максимального правдоподобия, тест Стьюдента и F-тест, R^2, доверительные и предсказательные интервалы
  • Регуляризация
    L2 и L1 регуляризация, точные решения для соответствующих задач в случае, если матрица объекты-признаки является ортогональной, анализ L2-регуляризации в общем случае, градиентный спуск для L1-регуляризованной задачи
  • Линейные классификаторы
    Логистическая регрессия, метод Ньютора, метод наименьших квадратов с перевзвешиванием, регуляризация для логистической регрессии, обобщённые линейные модели, линейный дискриминантный анализ, квадратичный дискриминантный анализ
  • Бустинг
    Выпуклая релаксация, выпуклые функции потерь, экспоненциальная функция потерь, AdaBoost, теоретические гарантии для алгоритма AdaBoost, градиентный бустинг.
  • SVM
    Выпуклая оптимизация, условия Каруша-Куна-Такера, SVM в случае линейно разделимых данных, SVM в случае линейно не разделимых данных, алгоритм SMO, SVM для многоклассовой классификации.
  • RKHS
    Гильбертовы пространства, положительно определённые функции, ядра, полиномиальные и экспоненциальные ядра, Reproducing Kernel Hilbert Space, Теорема Мерсера, ядровые методы в машинном обучении
  • Алгоритмы градиентного спуска
    Градиентный спуск. Стохастический градиентный спуск и его модификации
  • Нейронные сети
    Определение. Обратное распространение ошибки.
  • Теория Вапника-Червоненкиса
    Оценки риска для конечного словаря, сложность Радемахера, размерность Вапника-Червоненкиса
Элементы контроля

Элементы контроля

  • Домашняя работа (неблокирующий)
  • Домашняя работа (неблокирующий)
  • Экзамен (неблокирующий)
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.3 * Домашняя работа + 0.3 * Домашняя работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Численные методы : учеб. пособие для вузов, Бахвалов Н. С., Жидков Н. П., 2002
  • Численные методы : учеб. пособие для вузов, Калиткин Н. Н., 2011

Рекомендуемая дополнительная литература

  • НУЖИН Д.А., & ТОРШИНА О.А. (2015). Численные Методы Решения Начально-Краевой Задачи Дирихле. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.64A36103
  • Проблемы Гильберта : Сборник, Александров П. С., Гильберт Д., 1969