• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Современные технологии обработки статистических данных (преподается на английском языке)

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 38.04.01. Экономика
Когда читается: 2-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Князев Николай Александрович, Милков Максим Леонидович
Прогр. обучения: Статистическое моделирование и актуарные расчеты
Язык: английский
Кредиты: 6
Контактные часы: 56

Course Syllabus

Abstract

Data mining is a rapidly developing field which focuses on efficiently retrieving useful information from the data for prediction and description purposes. In this course students will be introduced to modern methods for identification of patterns and regularities in large datasets. Supervised and unsupervised learning techniques will be studied, including those for classification, regression, clustering and other common machine learning problems. Covered methods for example include ensemble methods such as random forests. Data preprocessing, feature selection and performance evaluation will also be discussed. Students will gain teamwork research experience as well as skills in implementing data mining algorithms using software for statistical computing, such as R. A wide range of applications will be considered, including text mining, image recognition, forecasting in finance and medicine.
Learning Objectives

Learning Objectives

  • The aim of this course is to provide the skills for analysis of statistical data, such as for regression, classification and clustering. This course is highly theoretical and the greater focus is on mathematics behind the algorithms, not on obtaining data from Internet and not on software implementation. However, an important objective is operational knowledge of the studied techniques, hence there will be a practical side to the course as well. By the end of the course students will have a broad view of applications, including the most recent and state-of-the-art developments for business and economics.
Course Contents

Course Contents

  • Вводные лекции по Python.
    -
  • Основы машинного обучения
    Введение в машинное обучение, терминология и смежные области. Классические виды задач машинного обучения: классификация, регрессия, кластеризация. – 45 минут Основные статистические величины и метрики (средняя и медианная ошибки, кросс энтропия) – 45 минут Основные программные пакеты для машинного обучения Платформа kaggle для практической части курса, настройка
  • Решающие деревья
    Решающие деревья для кластеризации и регрессии Леса решающих деревьев: бустинг решающих деревьев, случайный лес Современные алгоритмы основанные на решающих деревьях Решение прикладной задачи
  • Кластеризация
    Задача кластеризации. Метрики кластеризации, Сингулярное разложение, Метод главных компнент Алгоритм: к-средних, db scan, Affinity propagation Решение задачи кластеризации
  • Метод опорных векторов
    Задача поиска аномалий, метрики Метод опорных векторов Выбор ядра для метода Решение прикладной задачи
  • Нейронные сети: первая часть
    Введение в нейронные сети: основные понятия, алгоритм обратного распространения ошибки Алогритм Стохастического Градиентного спуска Активация нейорнов Реализация обучения сети
  • Нейронные сети: вторая часть
    Архитектуры нейронных сетей и виды слоев. Перцептрон Рекуррентная нейронная сеть, Сверточная нейронная сеть, автоэнкодеры Реализация
  • Нейронные сети: третья часть
    Современные архитектуры нейронных сетей Выбор модели машинного обучения Интерпретация моделей. Lime Практическая задача
  • Компьютерное зрение
    История компьютерного зрения. Связанные области. Отличительные особенности, выделяющие компьютерное зрение в самостоятельную сферу научно-технических исследований. Особенности машинного зрения. Сферы применения компьютерного зрения. Задачи, решаемые компьютерным зрением: 1. Распознавание. 2. Сегментация. 3. Оценка позы и ориентации.
  • Методы машинного обучения для обработки естественного языка
    Обработка естественного языка. Виды задач и метрики Лемматизация, стемминг, векторизация, мешок слов Современные архитектуры нейронных сетей Решение прикладной задачи
Assessment Elements

Assessment Elements

  • non-blocking домашнее задание
  • non-blocking Экзамен
Interim Assessment

Interim Assessment

  • Interim assessment (2 module)
    0.3 * домашнее задание + 0.7 * Экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Shmueli, G., Bruce, P. C., Gedeck, P., & Patel, N. R. (2020). Data Mining for Business Analytics : Concepts, Techniques and Applications in Python. Newark: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2273611

Recommended Additional Bibliography

  • Szabó, G., & Boykin, O. (2019). Social Media Data Mining and Analytics. Hoboken: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1899346