Магистратура
2018/2019
Современные методы анализа данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс обязательный (Анализ больших данных в бизнесе, экономике и обществе)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент математики
Когда читается:
1-й курс, 1 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Анализ больших данных в бизнесе, экономике и обществе
Язык:
русский
Кредиты:
4
Контактные часы:
44
Программа дисциплины
Аннотация
Целью освоения дисциплины «Современные методы анализа данных» является изучение основных аппаратов машинного обучения, эффективных алгоритмов обучения и применения обу-ченных моделей, основ теории байесовского вывода. В результате изучения дисциплины у студен-та будет сформировано представление о современном состоянии дел в теории байесовского выво-да. Студент получит также представление об основных методах машинного обучения, соответ-ствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать как развитию вероятностной интуиции и разработке моделей и методов машинного обучения, так и практическому их применению.
Цель освоения дисциплины
- изучение основных аппаратов машинного обучения, эффективных алгоритмов обучения и приме-нения обученных моделей, основ теории байесовского вывода
Планируемые результаты обучения
- Демонстрирует знание теории вероятностей и теоремы Байеса
- Знает правило Лапласа, априорные распределения и сопряженные априорные распределения
- Умеет применять метод наименьших квадратов и ближайших соседей
- Демонстрирует знание статистической теории принятия решений, проблемы оверфиттинга
- Знает разные формы регуляризаторов линейной регрессии, Лассо-регрессию, эквивалентные ядра
- Демонстрирует знание линейного дискриминанта Фишера, мультиномиального и многомерного наивного байесовского классификатора
- Умеет обучать логистическую регрессию, аппроксимировать по Лапласу
- Умеет применять метод опорных векторов
- Демонстрирует знание вариантов SVM (по-байесовски, relevance vector machines)
- Умеет применять иерархическую кластеризацию и кластеризацию методами теории графов
- Демонстрирует знание скрытых марковских моделей
- Умеет комбинировать модели, используя усреднение, бутстрап, бэггинг
- Умеет ранжировать (RankBoost, LambdaRank)
- Умеет составлять рекомендательные системы методом ближайших соседей
Содержание учебной дисциплины
- Введение. История искусственного интел-лекта. Вспоминаем теорию вероятностей. Теорема Байеса и машинное обучение. Что умеет делать машинное обучение.
- Правило Лапласа. Априорные распреде-ления. Сопряжённые априорные распре-деления.
- Наименьшие квадраты и ближайшие сосе-ди. Линейная регрессия. Логистическая регрессия.
- Статистическая теория принятия решений. Разложение bias-variance-noise. Оверфиттинг. Регуляризация: гребневая регрессия. Линейная регрессия по-байесовски.
- Линейная регрессия: разные формы регу-ляризаторов. Лассо-регрессия. Эквива-лентные ядра. Проклятие размерности.
- Задачи классификации. Линейный дис-криминант Фишера. Наивный байесов-ский классификатор: мультиномиальный и многомерный.
- Логистическая регрессия: как обучать. Мультиклассовая логистическая регрессия. Аппроксимация по Лапласу. Пробит. Логистическая регрессия по-байесовски.
- Метод опорных векторов (SVM). Трюк с ядрами.
- Варианты SVM. SVM по-байесовски: rele-vance vector machines.
- Кластеризация: иерархическая, методами теории графов. Алгоритм EM для класте-ризации.
- Скрытые марковские модели.
- Комбинация моделей: усреднение, бутс-трап, бэггинг. Бустинг: AdaBoost.
- Обучение ранжированию: постановка за-дачи, RankBoost. LambdaRank.
- Рекомендательные системы: метод бли-жайших соседей, сингулярное разложение матриц.
Элементы контроля
- Домашнее задание
- Контрольная работа
- ЭкзаменНа экзамене содержится ряд задач, охватывающий все темы курса. За каждое правильно вы-полненное задание присваивается накопительные баллы, которые суммируются и переводятся в 10-балльную систему. Экзамен проводится в письменной форме. За каждое правильно выполненное задание при-сваивается накопительные баллы, которые суммируются. Максимальная оценка за экзамен – 10 баллов.
Промежуточная аттестация
- Промежуточная аттестация (1 модуль)0.25 * Домашнее задание + 0.25 * Контрольная работа + 0.5 * Экзамен
Список литературы
Рекомендуемая основная литература
- Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
Рекомендуемая дополнительная литература
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
- Richert, W., & Coelho, L. P. (2013). Building Machine Learning Systems with Python. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619996