Методы машинного обучения

Бакалавриат 2020/2021

Статус: Курс обязательный (Инфокоммуникационные технологии и системы связи)

Направление: 11.03.02. Инфокоммуникационные технологии и системы связи

Кто читает: Департамент электронной инженерии

Где читается: Московский институт электроники и математики им. А.Н. Тихонова

Когда читается: 4-й курс, 1, 2 модуль

Формат изучения: с онлайн-курсом

Преподаватели: Иванов Федор Ильич

Язык: русский

Кредиты: 5

Контактные часы: 10

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Дисциплина «Методы машинного обучения» изучает класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач. Целью освоения дисциплины «Методы машинного обучения» является ознакомление студентов с теоретическими основами и основными принципами машинного обучения — а именно, с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных. В рамках дисциплины изучаются методы проверки статистических гипотез, линейные модели регрессии, классификации и кластеризации, ансамбли и деревья решений, нейросетевые технологии машинного обучения. Дисциплина «Методы машинного обучения» дает знания, необходимые для последующего прохождения преддипломной практики и подготовки ВКР. При обучении предусмотрен контроль знаний студентов в виде домашнего задания, контрольных, самостоятельных работ и экзамена.

Цель освоения дисциплины

Ознакомление студентов с теоретическими основами и основными принципами машинного обучения — а именно, с классами моделей (линейные, логические, нейросетевые), метриками качествами и подходами к подготовке данных. формирование у студентов практических навыков работы с данными и решения прикладных задач анализа данных.

Планируемые результаты обучения

Знает понятия и методы машинного обучения, которые могут быть полезны для дальнейшего изучения соответствующих дисциплин, а также для применения в профессиональной деятельности.
Знает наиболее популярные направления исследований в машинном обучении.
Умеет выбирать методы машинного обучения для решения задач в области профессиональной деятельности.
Владеет методами машинного обучения и популярными программными пакетами для решения практических задач машинного обучения.
Умеет строить нелинейные модели регрессии, классификации и кластеризации, используя библиотеку Scikit-learn
Умеет пользоваться ансамблевыми методами, решает теоретические задачи
Умеет cтроить линейные модели регрессии и классификации, используя библиотеку Scikit-learn

Содержание учебной дисциплины

Введение в машинное обучение
Постановки основных классов задач в машинном обучении. Обучение с учителем (supervised learning): регрессия и классификация; обучение без учителя (unsupervised learning): кластеризация, снижение размерности; semi-supervised learning, рекомендательные системы, обработка текстов: тематическое моделирование, построение аннотаций, извлечение ответов на вопросы, машинный перевод; обработка изображений: порождение, преобразование; обучение представлений; обучение с подкреплением. Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук, логи. Признаки.
Признаковые представления для дискретных входных данных
Практические соображения. Кодирование категориальных данных. Пропущенные значения. Обработка текстов: bag of words, tf-idf, векторные эмбеддинги.
Статистические оценки и проверка гипотез
Основные понятия математической статистики: статистические оценки (точечные и интервальные), их свойства, проверка гипотез.
Выбор и оценка моделей, работа с признаками
Кросс-валидация: тонкости (отбор переменных, переобучение на валидационное множество). Оценки ожидаемой ошибки для линейной регрессии: AIC и другие. L1 и L2 регуляризация. Методы отбора признаков. Метод главных компонент и singular spectrum analysis. Ядровые методы. Ядра и спрямляющие пространства, методы их построения. Операции в спрямляющих пространствах.
Линейные модели и задача классификации
Задачи классификации. Общая постановка. 0-1 ошибка. Байесовский классификатор. Линейные методы для классификации. Логистическая регрессия, максимизация правдоподобия, кросс-энтропия.
Линейные методы регрессии и классификации
Постановка задач обучения. Объекты и признаки, вектора признаков, классы. Типы задач: классификация, регрессия, кластеризация, ранжирование. Основные понятия: методы обучения, функция потерь и функционал качества, переобучение, обобщающая способность. Примеры прикладных задач. Метод наименьших квадратов (МНК). Аналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Метрики качества регрес-сии. Линейнай классификация. Случай двух классов и случай произвольного числа классов. Обучение линейного классификатора. Метод опорных векторов. Логистическая регрессия. Кросс-валидация.
Введение в линейные модели и задача регрессии
Градиентный спуск, методы оценивания градиента. Функции потерь. Метрики качества регрессии. Линейная регрессия, метод наименьших квадратов и максимизация правдоподобия. Теорема Гаусса—Маркова. Явный вид решения в методе наименьших квадратов. Ковариационная матрица для коэффициентов. Практические соображения: что делать с категориальными данными? Вычислительные соображения: точное решение vs градиентный спуск. Регуляризация.
Снижение размерности
SVD-разложение. Метод главных компонент.
Машинное обучение как математическое моделирование
Статистические модели. Теоретико-вероятностная постановка задачи обучения с учителем. Минимизация ожидаемой ошибки. No free lunch theorem. Пример: задача регрессии, минимизация квадрата отклонения. Регрессионная функция: условное матожидание. Линейная регрессия и метод k ближайших соседей. Переобучение и недообучение. Разложение ошибки на шум, смещение и разброс. Проклятие размерности. Методы оценивания обобщающей способности, кросс-валидация.
Ансамбли
Разложение ошибки на смещение и разброс. Бэггинг и бустинг. Случайные леса. Градиентный бустинг над решающими деревьями.
Нелинейные методы
Деревья решений. Общий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, стрижка, регуляризация. Задача кластеризации. Эвристические графовые алгоритмы. Метод k-средних. Искуственные нейронные сети. Проблема полноты. Задача исключающего "или". Вычислительные возможности двух- и трехслойных сетей. Метод обратного распространения ошибки. Машина Больцмана, машина Гемгольца и алгоритмы их обучения. Нейронные сети Кохонена. Сеть радиально-базисных функций.

Элементы контроля

домашнее задание
Дистанционный формат со 2-го модуля.
контрольная работа
Дистанционный формат со 2-го модуля.
экзамен
Преподаватель вправе освободить от прохождения экзамена студентов, с выставлением им во время сессии оценки по промежуточной аттестации, соответствующей накопленной оценке без учёта веса экзамена (то есть сумма весов всех элементов контроля, за исключением экзамена, приравнивается к единице). Преподаватель объявляет свое решение не позднее, чем на последнем занятии до экзамена. Для объявления оценок могут быть использованы официальные каналы передачи информации, используемые в процессе обучения. По желанию студентов, они могут отказаться от выставления оценки без проведения экзамена и сдать его на платформе Jitsi https://meet.miem.hse.ru, о чем сообщают преподавателю не позднее последнего занятия. К экзамену необходимо подключиться согласно расписанию. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка Jitsi. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи менее минуты. Долговременным нарушением связи во время экзамена считается нарушение более одной минуты. При долговременном нарушении связи студент не может продолжить участие в экзамене.

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
0.2 * домашнее задание + 0.3 * контрольная работа + 0.5 * экзамен

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература