• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Machine Learning

2020/2021
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
3 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Курс "Машинное обучение" посвящен разбору классических алгоритмов машинного обучения (от линейной регрессии до композиций алгоритмов). Также в курсе обсуждается работа с данными: очистка, нормализация, удаление выбросов. В ходе обучения студенты решают как теоретические задачи на бумаге, так и домашние задания с помощью Python, участвуют в соревнованиях. Курс является факультативным курсом для студентов 3го и 4го года обучения факультета экономических наук. Курс читается в первом семестре. Для углубления полученных на курсе знаний студенты имеют возможность посещать майнор аналогичной тематики. Пререквизитами являются знание основ высшей математики (математический анализ, линейная алгебра, теория вероятностей и основы математической статистики) и владение языком программирования Python хотя бы на среднем уровне
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать основные модели и методы машинного обучения и разработки данных
  • Уметь применять указанные модели и методы, а также программные средства, в которых они реализованы
  • Владеть навыками анализа реальных данных с помощью изученных методов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные модели и методы машинного обучения и разработки данных
  • Уметь применять указанные модели и методы, а также программные средства, в которых они реализованы
  • Владеть навыками анализа реальных данных с помощью изученных методов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в машинное обучение
    Введение. Типы задач в машинном обучении (классификация, регрессия и др.). Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук, логи. Признаки.
  • Линейные методы регрессии
    Аналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Метрики качества регрессии. Регуляризация. Методы оценивания обобщающей способности, кросс-валидация.
  • Линейные методы классификации
    Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Персептрон. Метрики качества в задачах классификации. Постановки задач многоклассовой и multilabel-классификации.
  • Обработка признаков и работа с выбросами
    Нормализация данных. Поиск аномалий методами математической статистики и с помощью алгоритмов машинного обучения.
  • Снижение размерности данных
    Работа с признаками. Методы отбора признаков. Сингулярное разложение. Метод главных компонент.
  • Решающие деревья
    Общий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, стрижка, регуляризация.
  • Композиции алгоритмов
    Общая идея разложения MSE на смещение и разброс. Бэггинг и метод случайных подпространств. Случайные леса. Бустинг. Градиентный бустинг над решающими деревьями. Различные имплементации градиентного бустинга.
  • Прогнозирование временных рядов
    Особенности работы с временными рядами. Экспоненциальное сглаживание. Прогнозирование временных рядов с помощью алгоритмов машинного обучения.
  • Метод опорных векторов. Нелинейные модели классификации.
    Метод опорных векторов (линейный). Идея использования линейных алгоритмов для решения задач, не являющихся линейно разделимыми. Нелинейные модели классификации: наивный байесовский классификатор, метод ближайших соседей.
  • Кластеризация и визуализация данных
    K-means, иерархическая кластеризация, метрики качества кластеризации. Алгоритмы umap и t-SNE.
  • Введение в нейронные сети
    Нейрон и нейронная сеть. Метод обратного распространения ошибки. Основные типы слоев в нейронных сетях.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Работа на семинаре
    Оценка за самостоятельные работы считается как среднее арифметическое всех оценок
  • неблокирующий Коллоквиум
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.

Рекомендуемая дополнительная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705