• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

FacultiesCoursesApplied Mathematics and Information ScienceMathematical Modeling

Методы машинного обучения и разработки данных

Academic year: 2013/2014

Содержание курса охватывает основные устоявшиеся разделы современного машинного обучения и разработки данных (Data Mining). Курс опирается на знания и компетенции, полученные в таких дисциплинах как «Современная прикладная  алгебра», «Теория вероятности и математическая статистика», «Дискретная математика», «Теория графов», «Частично упорядоченные множества и решетки», «Теория алгоритмов» или «Алгоритмы и структуры данных», «Численные методы и методы оптимизации». При отсутствии у студентов необходимых минимальных знаний по указанным дисциплинам им сообщаются базовые определения и  предлагаются источники для самостоятельного изучения, что не является препятствием для успешного освоения курса. Необходимо умение разработки небольших программ на одном из современных языков программирования (например, Python, C#, Java или C++), а также желателен опыт работы со средой MATLAB или Octave и их аналогами. Курс помогает получить базовые компетенции аналитика данных, среди которых адекватный выбор метода для решения конкретной задачи анализа данных, предобработка данных, настройка параметров метода анализа, интерпретация полученных результатов. Курс является сопутствующим для следующих дисциплин: «Стохастическое моделирование», «Современный анализ данных», «Социальные сети и рекомендательные системы». В ходе курса предполагается индивидуальная или групповая работа над зачетным проектом по анализу реальных данных, а также выполнение домашних заданий. В ходе обучения студенты также знакомятся с программными продуктами Weka, Orange и средой R.

Основные разделы курса

  • Введение в машинное обучение и разработку данных.
  • Системы разработки данных и машинного обучения (WEKA, Orange). Методы машинного обучения в Matlab.
  • Поиск ассоциативных правил и частых (замкнутых) множеств признаков. Разработка данных при наличии ограничений (Constraint-based Data Mining).
  • Задача регрессии. Понятие регуляризации. L1 и L2 регуляризация.
  • Задача классификации. Метод 1-Rule. Логистическая регрессия. Деревья решений. Методы оценки качества классификации (функция ошибок и скользящий контроль). Проблема переобучения.
  • Наивная байесовская классификация (Naive Bayes Classifier). Задача фильтрации спама и классификации текстов.
  • Искусственные нейронные сети. Многослойный персептрон. Алгоритм обратного распространения ошибки.
  • Задача кластеризации: иерархическая кластеризация; метод k-средних; метод k-медоидов.
  • Методы оценки качества кластеризации и подбора параметров.
  • Кластеризация графовых данных. Спектральная кластеризация.
  • Мультимодальная кластеризация: бикластеризация и трикластеризация. Шумоустойчивые бикластеры.
  • Отбор признаков и снижение размерности. Методы факторизации: сингулярное разложение (SVD), булева матричная факторизация (BMF) и неотрицательная матричная факторизация (NMF).
  • Поиск аномалий в данных. Понятие выброса. Работа с пропущенными значениями.
  • Рекомендательные системы и алгоритмы. Рекомендация музыки.
Type: Compulsory course
Instructor!: Ignatov, Dmitry I. (delivers lectures, conducts seminars, checks works and administers exams)
Delivered at: Department of Data Analysis and Artificial Intelligence (School of Applied Mathematics and Information Science)
Language: Russian
Level: Master
Area of studies: Applied Mathematics and Information Science
Master’s programme: Mathematical Modeling
When: 1 year, 3, 4 module
Credits: 4.5
Prerequisites:
Курс опирается на знания и компетенции, полученные в таких дисциплинах как «Современная прикладная алгебра», «Теория вероятности и математическая статистика», «Дискретная математика», «Теория графов», «Частично упорядоченные множества и решетки», «Теория алгоритмов» или «Алгоритмы и структуры данных», «Численные методы и методы оптимизации».