• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Прикладная математика и информатика»

Машинное обучение 1

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс обязательный
Когда читается:
3-й курс, 1, 2 модуль

Преподаватели


Волохова Александра Константиновна


Зиннурова Эльвира Альбертовна


Каюмов Эмиль Марселевич


Кохтев Вадим Михайлович


Хрушков Павел Вадимович


Яшков Даниил Дмитриевич

Программа дисциплины

Аннотация

Курс посвящён изучению основных методов машинного обучения. Изучаемые темы можно разбить на три блока. Первый — работа с данными и предварительный анализ данных. Изучаются библиотеки языка Python для работы с табличными данными и для визуализации, обсуждаются методы предобработки данных, подготовки категориальных и текстовых данных. Второй блок — обучение с учителем. Изучаются линейные модели, решающие деревья, композиции моделей (случайный лес, градиентный бустинг и его имплементации), приложения в рекомендательных системах. Третий блок — обучение без учителя. Изучаются методы кластеризации, визуализации, понижения размерности. Все темы сопровождаются практикой на реальных данных. По итогам курса слушатель сможет сформулировать задачу машинного обучения, выбрать метрику качества, обучить модель, подобрать гиперпараметры, провести валидацию.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знает основные понятия и постановки задач машинного обучения
  • Знает теоретические основы линейных и логических методов машинного обучения
  • Знает принципы построения композиций моделей
  • Знает основные метрики качества для регрессии и классификации
  • Умеет выполнять полный цикл построения модели
  • Умеет обучать основные модели машинного обучения, оценивать их качества
  • Умеет выполнять кластеризацию и визуализацию данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные понятия и постановки задач машинного обучения
  • Умеет выполнять полный цикл построения модели
  • Знает теоретические основы линейных и логических методов машинного обучения
  • Знает основные метрики качества для регрессии и классификации
  • Умеет обучать основные модели машинного обучения, оценивать их качества
  • Знает принципы построения композиций моделей
  • Умеет выполнять кластеризацию и визуализацию данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в машинное обучение и анализ данных
    Введение. История анализа данных. Постановки задач в машинном обучении: классификация, регрессия, ранжирование, кластеризация, латентные модели. Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук. Признаки.
  • Линейные модели
    Аналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Регуляризация. Квантильная регрессия (постановка задачи и примеры использования). Методы оценивания обобщающей способности, кросс-валидация. Метрики качества регрессии. Аппроксимация эмпирического риска. Персептрон. Метод опорных векторов, его двойственная задача (без ядер). Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Оптимизация второго порядка (идея и предпосылки для использования). Обобщённые линейные модели. Метрики качества в задачах классификации. Multiclass- и multilabel-классификация. Особенности многоклассовых задач. Метрики качества. Методы решения multilabel-задач, основанные на матричных разложениях.
  • Решающие деревья
    Общий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, стрижка, регуляризация.
  • Композиции моделей
    Общая идея bias-variance decomposition. Бэггинг и метод случайных подпространств. Случайные леса и extra random trees. Бустинг. Градиентный бустинг над решающими деревьями. Имплементации: xgboost, lightgbm, catboost.
  • Обучение без учителя
    Задача кластеризации. K-Means, DBSCAN, MeanShift. Иерархическая кластеризация. Визуализация и t-SNE. Представления слов.
  • Подготовка данных
    Отбор признаков. Понижение размерности и метод главных компонент. Подготовка категориальных и текстовых данных.
  • Рекомендательные системы
    Постановки задачи. Метрики качества. Методы, основанные на коллаборативной фильтрации. Методы, основанные на матричных разложениях.
Элементы контроля

Элементы контроля

  • неблокирующий Проверочная работа (ПР)
    Проверочные работы на семинарах, направленные на контроль усвоения теоретических знаний
  • неблокирующий Домашнее задание (ДЗ1)
    Практическое домашнее задание по линейным моделям
  • неблокирующий Домашнее задание (ДЗ2)
    Практическое домашнее задание по решающим деревьям и композициям
  • неблокирующий Домашнее задание (ДЗ 3)
    Практическое домашнее задание по обучению без учителя
  • неблокирующий Контрольная работа (КР)
    Письменная контрольная работа
  • неблокирующий Экзамен
    Письменный экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.134 * Домашнее задание (ДЗ 3) + 0.133 * Домашнее задание (ДЗ1) + 0.133 * Домашнее задание (ДЗ2) + 0.15 * Контрольная работа (КР) + 0.15 * Проверочная работа (ПР) + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008

Рекомендуемая дополнительная литература

  • Stephen Boyd, Lieven Vandenberghe, & Lieven V. (2015). Additional Exercises for Convex Optimization. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E7445CE1