• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Методы машинного обучения

Направление: 11.03.02. Инфокоммуникационные технологии и системы связи
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: с онлайн-курсом
Преподаватели: Иванов Федор Ильич
Язык: русский
Кредиты: 5
Контактные часы: 10

Программа дисциплины

Аннотация

Дисциплина «Методы машинного обучения» изучает класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач. Целью освоения дисциплины «Методы машинного обучения» является ознакомление студентов с теоретическими основами и основными принципами машинного обучения — а именно, с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных. В рамках дисциплины изучаются методы проверки статистических гипотез, линейные модели регрессии, классификации и кластеризации, ансамбли и деревья решений, нейросетевые технологии машинного обучения. Дисциплина «Методы машинного обучения» дает знания, необходимые для последующего прохождения преддипломной практики и подготовки ВКР. При обучении предусмотрен контроль знаний студентов в виде домашнего задания, контрольных, самостоятельных работ и экзамена.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с теоретическими основами и основными принципами машинного обучения — а именно, с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных. формирование у студентов практических навыков работы с данными и решения прикладных задач анализа данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает понятия и методы машинного обучения, которые могут быть полезны для дальнейшего изучения соответствующих дисциплин, а также для применения в профессиональной деятельности.
  • Знает наиболее популярные направления исследований в машинном обучении.
  • Умеет выбирать методы машинного обучения для решения задач в области профессиональной деятельности.
  • Владеет методами машинного обучения и популярными программными пакетами для решения практических задач машинного обучения.
  • Умеет строить нелинейные модели регрессии, классификации и кластеризации, используя библиотеку Scikit-learn
  • Умеет пользоваться ансамблевыми методами, решает теоретические задачи
  • Умеет cтроить линейные модели регрессии и классификации, используя библиотеку Scikit-learn
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в машинное обучение
    Постановки основных классов задач в машинном обучении. Обучение с учителем (supervised learning): регрессия и классификация; обучение без учителя (unsupervised learning): кластеризация, снижение размерности; semi-supervised learning, рекомендательные системы, обработка текстов: тематическое моделирование, построение аннотаций, извлечение ответов на вопросы, машинный перевод; обработка изображений: порождение, преобразование; обучение представлений; обучение с подкреплением. Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук, логи. Признаки.
  • Признаковые представления для дискретных входных данных
    Практические соображения. Кодирование категориальных данных. Пропущенные значения. Обработка текстов: bag of words, tf-idf, векторные эмбеддинги.
  • Статистические оценки и проверка гипотез
    Основные понятия математической статистики: статистические оценки (точечные и интервальные), их свойства, проверка гипотез.
  • Выбор и оценка моделей, работа с признаками
    Кросс-валидация: тонкости (отбор переменных, переобучение на валидационное множество). Оценки ожидаемой ошибки для линейной регрессии: AIC и другие. L1 и L2 регуляризация. Методы отбора признаков. Метод главных компонент и singular spectrum analysis. Ядровые методы. Ядра и спрямляющие пространства, методы их построения. Операции в спрямляющих пространствах.
  • Линейные модели и задача классификации
    Задачи классификации. Общая постановка. 0-1 ошибка. Байесовский классификатор. Линейные методы для классификации. Логистическая регрессия, максимизация правдоподобия, кросс-энтропия.
  • Линейные методы регрессии и классификации
    Постановка задач обучения. Объекты и признаки, вектора признаков, классы. Типы задач: классификация, регрессия, кластеризация, ранжирование. Основные понятия: методы обучения, функция потерь и функционал качества, переобучение, обобщающая способность. Примеры прикладных задач. Метод наименьших квадратов (МНК). Аналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Метрики качества регрес-сии. Линейнай классификация. Случай двух классов и случай произвольного числа классов. Обучение линейного классификатора. Метод опорных векторов. Логистическая регрессия. Кросс-валидация.
  • Введение в линейные модели и задача регрессии
    Градиентный спуск, методы оценивания градиента. Функции потерь. Метрики качества регрессии. Линейная регрессия, метод наименьших квадратов и максимизация правдоподобия. Теорема Гаусса—Маркова. Явный вид решения в методе наименьших квадратов. Ковариационная матрица для коэффициентов. Практические соображения: что делать с категориальными данными? Вычислительные соображения: точное решение vs градиентный спуск. Регуляризация.
  • Снижение размерности
    SVD-разложение. Метод главных компонент.
  • Машинное обучение как математическое моделирование
    Статистические модели. Теоретико-вероятностная постановка задачи обучения с учителем. Минимизация ожидаемой ошибки. No free lunch theorem. Пример: задача регрессии, минимизация квадрата отклонения. Регрессионная функция: условное матожидание. Линейная регрессия и метод k ближайших соседей. Переобучение и недообучение. Разложение ошибки на шум, смещение и разброс. Проклятие размерности. Методы оценивания обобщающей способности, кросс-валидация.
  • Ансамбли
    Разложение ошибки на смещение и разброс. Бэггинг и бустинг. Случайные леса. Градиентный бустинг над решающими деревьями.
  • Нелинейные методы
    Деревья решений. Общий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, стрижка, регуляризация. Задача кластеризации. Эвристические графовые алгоритмы. Метод k-средних. Искуственные нейронные сети. Проблема полноты. Задача исключающего "или". Вычислительные возможности двух- и трехслойных сетей. Метод обратного распространения ошибки. Машина Больцмана, машина Гемгольца и алгоритмы их обучения. Нейронные сети Кохонена. Сеть радиально-базисных функций.
Элементы контроля

Элементы контроля

  • неблокирующий домашнее задание
    Дистанционный формат со 2-го модуля.
  • неблокирующий контрольная работа
    Дистанционный формат со 2-го модуля.
  • неблокирующий экзамен
    Преподаватель вправе освободить от прохождения экзамена студентов, с выставлением им во время сессии оценки по промежуточной аттестации, соответствующей накопленной оценке без учёта веса экзамена (то есть сумма весов всех элементов контроля, за исключением экзамена, приравнивается к единице). Преподаватель объявляет свое решение не позднее, чем на последнем занятии до экзамена. Для объявления оценок могут быть использованы официальные каналы передачи информации, используемые в процессе обучения. По желанию студентов, они могут отказаться от выставления оценки без проведения экзамена и сдать его на платформе Jitsi https://meet.miem.hse.ru, о чем сообщают преподавателю не позднее последнего занятия. К экзамену необходимо подключиться согласно расписанию. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка Jitsi. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи менее минуты. Долговременным нарушением связи во время экзамена считается нарушение более одной минуты. При долговременном нарушении связи студент не может продолжить участие в экзамене.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.2 * домашнее задание + 0.3 * контрольная работа + 0.5 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Вьюгин В.В. - Математические основы машинного обучения и прогнозирования - Московский центр непрерывного математического образования - 2014 - 304с. - ISBN: 978-5-4439-2014-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/56397
  • Рашка С. - Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения - Издательство "ДМК Пресс" - 2017 - 418с. - ISBN: 978-5-97060-409-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100905
  • Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - Издательство "ДМК Пресс" - 2015 - 400с. - ISBN: 978-5-97060-273-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/69955

Рекомендуемая дополнительная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818