• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Бизнес-информатика»

Введение в машинное обучение

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс по выбору
Когда читается:
3-й курс, 2 модуль

Преподаватель


Сахнюк Павел Анатольевич

Программа дисциплины

Аннотация

Целью дисциплины является формирование у студентов комплекса теоретических знаний и практических навыков использования методов машинного обучения для решения задач анализа данных, применяя передовые инструменты платформ науки о данных и машинного обучения (DSML). Платформы DSML предлагают сочетание базовых и расширенных функциональных возможностей, необходимых для построения прогнозирующих и предписывающих моделей. Платформы также поддерживает включение разработанных решений в бизнес-процессы, окружающую инфраструктуру, продукты и приложения. Они помогают бизнес-аналитикам в следующих областях: получение и подготовка данных, обработка данных и создание признаков для моделей (Feature Engineering), создание, обучение и тестирование моделей машинного обучения, развёртывание и мониторинг созданных моделей, техническое обслуживание и организация совместной работы. Цели освоения дисциплины: - научиться создавать сквозной конвейер машинного обучения для решения задач Data Mining, применяя ведущие Low-code платформы Data Science and Machine Learning: Azure ML Studio, KNIME Analytics Platform, RapidMiner - научиться извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов; - быстро строить модели и проверять гипотезы, строить рекомендательную систему и обучать нейронные сети, выявлять скрытые аномалии в данных. Ожидаемые результаты обучения. Знать: основные концепции и методы машинного обучения Иметь практические навыки: применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач Data Mining
Цель освоения дисциплины

Цель освоения дисциплины

  • – научиться создавать сквозной конвейер машинного обучения для решения задач Data Mining, применяя ведущие Low-code платформы Data Science and Machine Learning: Azure ML Studio, KNIME Analytics Platform, RapidMiner, H2O.ai Flow
  • – научиться извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов
  • – быстро строить модели и проверять гипотезы, строить рекомендательную систему и обучать нейронные сети, выявлять скрытые аномалии в данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные концепции и методы машинного обучения Имеет практические навыки: применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач машинного обучения.
  • Знает основные концепции и методы машинного обучения, применяемые при решении регрессионных задач. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения регрессионных задач с помощью алгоритмов машинного обучения.
  • Знает основные концепции и методы обучения деревьев решений. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач классификации и регрессии с помощью деревьев решений.
  • Знает основные концепции и методы машинного обучения, основанных на ансамблях (комитетах) моделей. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач классификации и регрессии с помощью ансамблей моделей.
  • Знает основные концепции нейронных сетей и методы их обучения. Имеет практические навыки: применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач машинного обучения с помощью нейронных сетей.
  • Знает основные концепции алгоритма кластеризации k-means и нейронных сетей Кохонена. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач кластеризации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Линейные методы классификации
    Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Персептрон. Метрики качества в задачах классификации. Постановки задач многоклассовой и multilabel-классификации. Решение классификационных задач в платформах Data Science and Machine Learning
  • Композиции алгоритмов
    Общая идея разложения MSE на смещение и разброс. Бэггинг и метод случайных подпространств. Случайные леса. Бустинг. Градиентный бустинг над решающими деревьями. Различные имплементации градиентного бустинга в платформах DSML
  • Задача кластеризации
    Введение в кластерный анализ, алгоритм k-means. Самоорганизующиеся сети Кохонена, алгоритм функционирования самообучающихся карт. Решение задачи кластерного анализа в платформах Data Science and Machine Learning
  • Введение в нейронные сети
    Нейрон и нейронная сеть. Метод обратного распространения ошибки. Основные типы слоев в нейронных сетях. Реализация многослойных персептронов в платформах DSML
  • Решающие деревья
    Общий алгоритм построения, критерии информативности. Построение деревьев решений. Алгоритм CART. Обработка пропущенных значений, стрижка, регуляризация. Сильные и слабые стороны деревьев решений. Решение классификационных задач в платформах Data Science and Machine Learning
  • Линейные методы регрессии
    Аналитическое и численное решение задачи МНК. Градиентный метод в машинном обучении. Обучение и функция потерь. Минимизация потерь: итерационный подход. Градиентный спуск, стохастический градиентный спуск. Градиентный спуск с линейной регрессией. Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Решение регрессионной задачи в платформах Data Science and Machine Learning
  • Введение в машинное обучение
    Введение. Типы задач в машинном обучении (классификация, регрессия, кластеризация, выявление аномалий и др.). Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук, логи. Признаки. Интерфейс платформ DSML c графическим интерфейсом: Azure ML Studio, KNIME Analytics Platform, RapidMiner, H2O.ai Flow
Элементы контроля

Элементы контроля

  • неблокирующий средняя оценка за семинары
  • неблокирующий Кейс по индивидуальному заданию
  • неблокирующий Домашнее задание
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.3 * Домашнее задание + 0.4 * Кейс по индивидуальному заданию + 0.3 * средняя оценка за семинары
Список литературы

Список литературы

Рекомендуемая основная литература

  • Data Science : наука о данных с нуля, Грас, Дж., 2018
  • Машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных, Флах, П., 2015
  • Машинное обучение с использованием библиотеки H2O : мощные и масштабируемые методы для глубокого обучения и ИИ, Кук, Д., 2018
  • Основы Data Science и Big data : Python и наука о данных, Силен, Д., 2017

Рекомендуемая дополнительная литература

  • Python для сложных задач : наука о данных и машинное обучение, Плас, Дж. В., 2018
  • Машинное обучение & TensorFlow, Шакла, Н., 2019
  • Машинное обучение без лишних слов, Бурков, А., 2020