• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site
Master 2020/2021

Data Mining

Category 'Best Course for Career Development'
Category 'Best Course for Broadening Horizons and Diversity of Knowledge and Skills'
Category 'Best Course for New Knowledge and Skills'
Area of studies: Economics
When: 2 year, 1, 2 module
Mode of studies: offline
Open to: students of one campus
Instructors: Милков Максим Леонидович, Князев Николай Александрович
Master’s programme: Statistical Modelling and Actuarial Science
Language: English
ECTS credits: 6
Contact hours: 56

Course Syllabus

Abstract

Data mining is a rapidly developing field which focuses on efficiently retrieving useful information from the data for prediction and description purposes. In this course students will be introduced to modern methods for identification of patterns and regularities in large datasets. Supervised and unsupervised learning techniques will be studied, including those for classification, regression, clustering and other common machine learning problems. Covered methods for example include ensemble methods such as random forests. Data preprocessing, feature selection and performance evaluation will also be discussed. Students will gain teamwork research experience as well as skills in implementing data mining algorithms using software for statistical computing, such as R. A wide range of applications will be considered, including text mining, image recognition, forecasting in finance and medicine.
Learning Objectives

Learning Objectives

  • The aim of this course is to provide the skills for analysis of statistical data, such as for regression, classification and clustering. This course is highly theoretical and the greater focus is on mathematics behind the algorithms, not on obtaining data from Internet and not on software implementation. However, an important objective is operational knowledge of the studied techniques, hence there will be a practical side to the course as well. By the end of the course students will have a broad view of applications, including the most recent and state-of-the-art developments for business and economics.
Course Contents

Course Contents

  • Вводные лекции по Python.
    -
  • Основы машинного обучения
    Введение в машинное обучение, терминология и смежные области. Классические виды задач машинного обучения: классификация, регрессия, кластеризация. – 45 минут Основные статистические величины и метрики (средняя и медианная ошибки, кросс энтропия) – 45 минут Основные программные пакеты для машинного обучения Платформа kaggle для практической части курса, настройка
  • Решающие деревья
    Решающие деревья для кластеризации и регрессии Леса решающих деревьев: бустинг решающих деревьев, случайный лес Современные алгоритмы основанные на решающих деревьях Решение прикладной задачи
  • Кластеризация
    Задача кластеризации. Метрики кластеризации, Сингулярное разложение, Метод главных компнент Алгоритм: к-средних, db scan, Affinity propagation Решение задачи кластеризации
  • Метод опорных векторов
    Задача поиска аномалий, метрики Метод опорных векторов Выбор ядра для метода Решение прикладной задачи
  • Нейронные сети: первая часть
    Введение в нейронные сети: основные понятия, алгоритм обратного распространения ошибки Алогритм Стохастического Градиентного спуска Активация нейорнов Реализация обучения сети
  • Нейронные сети: вторая часть
    Архитектуры нейронных сетей и виды слоев. Перцептрон Рекуррентная нейронная сеть, Сверточная нейронная сеть, автоэнкодеры Реализация
  • Нейронные сети: третья часть
    Современные архитектуры нейронных сетей Выбор модели машинного обучения Интерпретация моделей. Lime Практическая задача
  • Компьютерное зрение
    История компьютерного зрения. Связанные области. Отличительные особенности, выделяющие компьютерное зрение в самостоятельную сферу научно-технических исследований. Особенности машинного зрения. Сферы применения компьютерного зрения. Задачи, решаемые компьютерным зрением: 1. Распознавание. 2. Сегментация. 3. Оценка позы и ориентации.
  • Методы машинного обучения для обработки естественного языка
    Обработка естественного языка. Виды задач и метрики Лемматизация, стемминг, векторизация, мешок слов Современные архитектуры нейронных сетей Решение прикладной задачи
Assessment Elements

Assessment Elements

  • non-blocking домашнее задание
  • non-blocking Экзамен
Interim Assessment

Interim Assessment

  • Interim assessment (2 module)
    0.3 * домашнее задание + 0.7 * Экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Shmueli, G., Bruce, P. C., Gedeck, P., & Patel, N. R. (2020). Data Mining for Business Analytics : Concepts, Techniques and Applications in Python. Newark: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2273611

Recommended Additional Bibliography

  • Szabó, G., & Boykin, O. (2019). Social Media Data Mining and Analytics. Hoboken: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1899346