• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2018/2019

Современные методы анализа данных

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус: Курс обязательный (Анализ больших данных в бизнесе, экономике и обществе)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 1 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Анализ больших данных в бизнесе, экономике и обществе
Язык: русский
Кредиты: 4
Контактные часы: 44

Программа дисциплины

Аннотация

Целью освоения дисциплины «Современные методы анализа данных» является изучение основных аппаратов машинного обучения, эффективных алгоритмов обучения и применения обу-ченных моделей, основ теории байесовского вывода. В результате изучения дисциплины у студен-та будет сформировано представление о современном состоянии дел в теории байесовского выво-да. Студент получит также представление об основных методах машинного обучения, соответ-ствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать как развитию вероятностной интуиции и разработке моделей и методов машинного обучения, так и практическому их применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • изучение основных аппаратов машинного обучения, эффективных алгоритмов обучения и приме-нения обученных моделей, основ теории байесовского вывода
Планируемые результаты обучения

Планируемые результаты обучения

  • Демонстрирует знание теории вероятностей и теоремы Байеса
  • Знает правило Лапласа, априорные распределения и сопряженные априорные распределения
  • Умеет применять метод наименьших квадратов и ближайших соседей
  • Демонстрирует знание статистической теории принятия решений, проблемы оверфиттинга
  • Знает разные формы регуляризаторов линейной регрессии, Лассо-регрессию, эквивалентные ядра
  • Демонстрирует знание линейного дискриминанта Фишера, мультиномиального и многомерного наивного байесовского классификатора
  • Умеет обучать логистическую регрессию, аппроксимировать по Лапласу
  • Умеет применять метод опорных векторов
  • Демонстрирует знание вариантов SVM (по-байесовски, relevance vector machines)
  • Умеет применять иерархическую кластеризацию и кластеризацию методами теории графов
  • Демонстрирует знание скрытых марковских моделей
  • Умеет комбинировать модели, используя усреднение, бутстрап, бэггинг
  • Умеет ранжировать (RankBoost, LambdaRank)
  • Умеет составлять рекомендательные системы методом ближайших соседей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. История искусственного интел-лекта. Вспоминаем теорию вероятностей. Теорема Байеса и машинное обучение. Что умеет делать машинное обучение.
  • Правило Лапласа. Априорные распреде-ления. Сопряжённые априорные распре-деления.
  • Наименьшие квадраты и ближайшие сосе-ди. Линейная регрессия. Логистическая регрессия.
  • Статистическая теория принятия решений. Разложение bias-variance-noise. Оверфиттинг. Регуляризация: гребневая регрессия. Линейная регрессия по-байесовски.
  • Линейная регрессия: разные формы регу-ляризаторов. Лассо-регрессия. Эквива-лентные ядра. Проклятие размерности.
  • Задачи классификации. Линейный дис-криминант Фишера. Наивный байесов-ский классификатор: мультиномиальный и многомерный.
  • Логистическая регрессия: как обучать. Мультиклассовая логистическая регрессия. Аппроксимация по Лапласу. Пробит. Логистическая регрессия по-байесовски.
  • Метод опорных векторов (SVM). Трюк с ядрами.
  • Варианты SVM. SVM по-байесовски: rele-vance vector machines.
  • Кластеризация: иерархическая, методами теории графов. Алгоритм EM для класте-ризации.
  • Скрытые марковские модели.
  • Комбинация моделей: усреднение, бутс-трап, бэггинг. Бустинг: AdaBoost.
  • Обучение ранжированию: постановка за-дачи, RankBoost. LambdaRank.
  • Рекомендательные системы: метод бли-жайших соседей, сингулярное разложение матриц.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
    На экзамене содержится ряд задач, охватывающий все темы курса. За каждое правильно вы-полненное задание присваивается накопительные баллы, которые суммируются и переводятся в 10-балльную систему. Экзамен проводится в письменной форме. За каждое правильно выполненное задание при-сваивается накопительные баллы, которые суммируются. Максимальная оценка за экзамен – 10 баллов.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.25 * Домашнее задание + 0.25 * Контрольная работа + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968

Рекомендуемая дополнительная литература

  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
  • Richert, W., & Coelho, L. P. (2013). Building Machine Learning Systems with Python. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619996