Современные методы анализа данных

Магистратура 2018/2019

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Статус: Курс обязательный (Анализ больших данных в бизнесе, экономике и обществе)

Направление: 01.04.02. Прикладная математика и информатика

Кто читает: Департамент математики

Где читается: Санкт-Петербургская школа физико-математических и компьютерных наук

Когда читается: 1-й курс, 1 модуль

Формат изучения: без онлайн-курса

Преподаватели: Сироткин Александр Владимирович, Суворова Алёна Владимировна

Прогр. обучения: Анализ больших данных в бизнесе, экономике и обществе

Язык: русский

Кредиты: 4

Контактные часы: 44

Полная версия программы учебной дисциплины

Аннотация

Целью освоения дисциплины «Современные методы анализа данных» является изучение основных аппаратов машинного обучения, эффективных алгоритмов обучения и применения обу-ченных моделей, основ теории байесовского вывода. В результате изучения дисциплины у студен-та будет сформировано представление о современном состоянии дел в теории байесовского выво-да. Студент получит также представление об основных методах машинного обучения, соответ-ствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать как развитию вероятностной интуиции и разработке моделей и методов машинного обучения, так и практическому их применению.

Цель освоения дисциплины

изучение основных аппаратов машинного обучения, эффективных алгоритмов обучения и приме-нения обученных моделей, основ теории байесовского вывода

Планируемые результаты обучения

Демонстрирует знание теории вероятностей и теоремы Байеса
Знает правило Лапласа, априорные распределения и сопряженные априорные распределения
Умеет применять метод наименьших квадратов и ближайших соседей
Демонстрирует знание статистической теории принятия решений, проблемы оверфиттинга
Знает разные формы регуляризаторов линейной регрессии, Лассо-регрессию, эквивалентные ядра
Демонстрирует знание линейного дискриминанта Фишера, мультиномиального и многомерного наивного байесовского классификатора
Умеет обучать логистическую регрессию, аппроксимировать по Лапласу
Умеет применять метод опорных векторов
Демонстрирует знание вариантов SVM (по-байесовски, relevance vector machines)
Умеет применять иерархическую кластеризацию и кластеризацию методами теории графов
Демонстрирует знание скрытых марковских моделей
Умеет комбинировать модели, используя усреднение, бутстрап, бэггинг
Умеет ранжировать (RankBoost, LambdaRank)
Умеет составлять рекомендательные системы методом ближайших соседей

Содержание учебной дисциплины

Введение. История искусственного интел-лекта. Вспоминаем теорию вероятностей. Теорема Байеса и машинное обучение. Что умеет делать машинное обучение.
Правило Лапласа. Априорные распреде-ления. Сопряжённые априорные распре-деления.
Наименьшие квадраты и ближайшие сосе-ди. Линейная регрессия. Логистическая регрессия.
Статистическая теория принятия решений. Разложение bias-variance-noise. Оверфиттинг. Регуляризация: гребневая регрессия. Линейная регрессия по-байесовски.
Линейная регрессия: разные формы регу-ляризаторов. Лассо-регрессия. Эквива-лентные ядра. Проклятие размерности.
Задачи классификации. Линейный дис-криминант Фишера. Наивный байесов-ский классификатор: мультиномиальный и многомерный.
Логистическая регрессия: как обучать. Мультиклассовая логистическая регрессия. Аппроксимация по Лапласу. Пробит. Логистическая регрессия по-байесовски.
Метод опорных векторов (SVM). Трюк с ядрами.
Варианты SVM. SVM по-байесовски: rele-vance vector machines.
Кластеризация: иерархическая, методами теории графов. Алгоритм EM для класте-ризации.
Скрытые марковские модели.
Комбинация моделей: усреднение, бутс-трап, бэггинг. Бустинг: AdaBoost.
Обучение ранжированию: постановка за-дачи, RankBoost. LambdaRank.
Рекомендательные системы: метод бли-жайших соседей, сингулярное разложение матриц.

Элементы контроля

Домашнее задание
Контрольная работа
Экзамен
На экзамене содержится ряд задач, охватывающий все темы курса. За каждое правильно вы-полненное задание присваивается накопительные баллы, которые суммируются и переводятся в 10-балльную систему. Экзамен проводится в письменной форме. За каждое правильно выполненное задание при-сваивается накопительные баллы, которые суммируются. Максимальная оценка за экзамен – 10 баллов.

Промежуточная аттестация

Промежуточная аттестация (1 модуль)
0.25 * Домашнее задание + 0.25 * Контрольная работа + 0.5 * Экзамен

Программа дисциплины