• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФакультетыУчебные курсы010400.68 Прикладная математика и информатикаМатематическое моделированиеИнтеллектуальные системы

Методы машинного обучения и разработки данных

Учебный год: 2013/2014

Содержание курса охватывает основные устоявшиеся разделы современного машинного обучения и разработки данных (Data Mining). Курс опирается на знания и компетенции, полученные в таких дисциплинах как «Современная прикладная  алгебра», «Теория вероятности и математическая статистика», «Дискретная математика», «Теория графов», «Частично упорядоченные множества и решетки», «Теория алгоритмов» или «Алгоритмы и структуры данных», «Численные методы и методы оптимизации». При отсутствии у студентов необходимых минимальных знаний по указанным дисциплинам им сообщаются базовые определения и  предлагаются источники для самостоятельного изучения, что не является препятствием для успешного освоения курса. Необходимо умение разработки небольших программ на одном из современных языков программирования (например, Python, C#, Java или C++), а также желателен опыт работы со средой MATLAB или Octave и их аналогами. Курс помогает получить базовые компетенции аналитика данных, среди которых адекватный выбор метода для решения конкретной задачи анализа данных, предобработка данных, настройка параметров метода анализа, интерпретация полученных результатов. Курс является сопутствующим для следующих дисциплин: «Стохастическое моделирование», «Современный анализ данных», «Социальные сети и рекомендательные системы». В ходе курса предполагается индивидуальная или групповая работа над зачетным проектом по анализу реальных данных, а также выполнение домашних заданий. В ходе обучения студенты также знакомятся с программными продуктами Weka, Orange и средой R.

Основные разделы курса

  • Введение в машинное обучение и разработку данных.
  • Системы разработки данных и машинного обучения (WEKA, Orange). Методы машинного обучения в Matlab.
  • Поиск ассоциативных правил и частых (замкнутых) множеств признаков. Разработка данных при наличии ограничений (Constraint-based Data Mining).
  • Задача регрессии. Понятие регуляризации. L1 и L2 регуляризация.
  • Задача классификации. Метод 1-Rule. Логистическая регрессия. Деревья решений. Методы оценки качества классификации (функция ошибок и скользящий контроль). Проблема переобучения.
  • Наивная байесовская классификация (Naive Bayes Classifier). Задача фильтрации спама и классификации текстов.
  • Искусственные нейронные сети. Многослойный персептрон. Алгоритм обратного распространения ошибки.
  • Задача кластеризации: иерархическая кластеризация; метод k-средних; метод k-медоидов.
  • Методы оценки качества кластеризации и подбора параметров.
  • Кластеризация графовых данных. Спектральная кластеризация.
  • Мультимодальная кластеризация: бикластеризация и трикластеризация. Шумоустойчивые бикластеры.
  • Отбор признаков и снижение размерности. Методы факторизации: сингулярное разложение (SVD), булева матричная факторизация (BMF) и неотрицательная матричная факторизация (NMF).
  • Поиск аномалий в данных. Понятие выброса. Работа с пропущенными значениями.
  • Рекомендательные системы и алгоритмы. Рекомендация музыки.
Статус: Курс обязательный
Преподаватель: Игнатов Дмитрий Игоревич (читает лекции, ведет семинары, проверяет работы и принимает экзамены/зачеты)
Кто читает: Кафедра анализа данных и искусственного интеллекта (Отделение прикладной математики и информатики)
Язык: русский
Уровень: Магистратура
Направление: 010400.68 Прикладная математика и информатика
Прогр. обучения: Математическое моделирование
Специализация: Интеллектуальные системы
Когда читается: 1-й курс, 3, 4 модуль
Кредитов: 4.5
Пререквизиты:
Курс опирается на знания и компетенции, полученные в таких дисциплинах как «Современная прикладная алгебра», «Теория вероятности и математическая статистика», «Дискретная математика», «Теория графов», «Частично упорядоченные множества и решетки», «Теория алгоритмов» или «Алгоритмы и структуры данных», «Численные методы и методы оптимизации».