• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Машинное обучение

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 1, 2 модуль

Преподаватель


Рысьмятова Анастасия Александровна

Программа дисциплины

Аннотация

Курс посвящён изучению основных методов машинного обучения. Изучаемые темы можно разбить на три блока. Первый — работа с данными и предварительный анализ данных. Изучаются библиотеки языка Python для работы с табличными данными и для визуализации, обсуждаются методы предобработки данных, подготовки категориальных и текстовых данных. Второй блок — обучение с учителем. Изучаются линейные модели, решающие деревья, композиции моделей (случайный лес, градиентный бустинг и его имплементации), приложения в рекомендательных системах. Третий блок — обучение без учителя. Изучаются методы кластеризации, визуализации, понижения размерности. Все темы сопровождаются практикой на реальных данных. По итогам курса слушатель сможет сформулировать задачу машинного обучения, выбрать метрику качества, обучить модель, подобрать гиперпараметры, провести валидацию.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с теоретическими основами и основными принципами машинного обучения — а именно, с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных. Формирование у студентов практических навыков работы с данными и решения прикладных задач анализа данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Ознакомление студентов с теоретическими основами и основными принципами машинного обучения — а именно, с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных. Формирование у студентов практических навыков работы с данными и решения прикладных задач анализа данных.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в машинное обучение
    Введение. История анализа данных. Постановки задач в машинном обучении:классификация, регрессия, ранжирование, кластеризация, латентные модели. Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук. Признаки.
  • Обучение без учителя
    Задача кластеризации. K-Means, DBSCAN, MeanShift. Spectral clustering. Иерархическая кластеризация. Consensus clustering. Автокодировщики. Визуализация и t-SNE.
  • Линейные методы регрессии
    Аналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Регуляризация. Квантильная регрессия (постановка задачи и примеры использования). Методы оценивания обобщающей способности, кросс- валидация. Метрики качества регрессии. Прогнозирование временных рядов как задача регрессии: авторегрессия, тренды и сезонности. Оценивание качества скользящим окном.
  • Линейные методы классификации
    Аппроксимация эмпирического риска. Персептрон. Метод опорных векторов, его двойственная задача (без ядер). Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Оптимизация второго порядка (идея и предпосылки для использования). Обобщённые линейные модели. Метрики качества в задачах классификации. Multiclass- и multilabel-классификация. Особенности многоклассовых задач. Метрики качества. Методы решения multilabel-задач, основанные на матричных разложениях.
  • Особенности работы с реальными данными
    Пропуски в данных. Предобработка признаков. Чистка данных. Категориальные признаки: кодирование, хэширование, счётчики. Работа с текстами. Разреженные признаки: векторизация, хэширование, TF-IDF. Косинусная метрика.
  • Работа с признаками
    Методы отбора признаков. Метод главных компонент.
  • Решающие деревья
    Общий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, стрижка, регуляризация.
  • Композиции алгоритмов
    Общая идея bias-variance decomposition. Бэггинг и метод случайных подпространств. Случайные леса и extra random trees. Бустинг. Градиентный бустинг над решающими деревьями. Модель xgboost.
  • Нейронные сети
    Структура нейронной сети. Обратное распространение ошибки. Применение нейросетей для анализа изображений: свёрточные слои, примеры архитектур как наборов кубиков.
  • Подходы к извлечению признаков для сложных данных
    Работа с изображениями (фильтры, извлечение признаков с помощью нейросетей), текстами (word embeddings).
  • Рекомендательные системы
    Постановки задачи. Метрики качества. Методы, основанные на коллаборативной фильтрации. Методы, основанные на матричных разложениях.
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Самостоятельные работы
    Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций
  • неблокирующий Практические домашние работы
  • неблокирующий Теоретические домашние задания
  • неблокирующий Письменный экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.14 * Контрольная работа + 0.3 * Письменный экзамен + 0.28 * Практические домашние работы + 0.07 * Самостоятельные работы + 0.21 * Теоретические домашние задания
Список литературы

Список литературы

Рекомендуемая основная литература

  • An introduction to statistical learning : with applications in R, , 2013

Рекомендуемая дополнительная литература

  • Mohri, M., Talwalkar, A., & Rostamizadeh, A. (2012). Foundations of Machine Learning. Cambridge, MA: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=478737