• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Introduction to Data Mining

2020/2021
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Delivered at:
School of Sociology
Course type:
Compulsory course
When:
1 year, 3, 4 module

Instructor

Программа дисциплины

Аннотация

Целями освоения дисциплины «Введение в интеллектуальный анализ данных» являются:  знакомство с основными методами современного анализа данных;  понимание того, в каких условиях, для решения каких задач и при каких ограничениях указанные методы применяются;  умение применять пакет Rattle из свободной (бесплатной) программной среды вычислений R для анализа реальных социологических данных
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство с основными методами современного анализа данных
  • Формирование понимания того, в каких условиях, для решения каких задач и при каких ограничениях указанные методы применяются.
  • Формирование навыков работы с пакетом Rattle из свободной (бесплатной) программной среды вычислений R для анализа реальных социологических данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные методы современного анализа данных для решения задач классификации, кластеризации, прогноза и скоринга.
  • Владеет навыками анализа реальных социологических данных с применением пакета Rattle из программной среды вычислений R.
  • Умеет строить модели, оценивать их качество и сравнивать различные модели.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Обзор основных задач, методов и областей применения. Краткая история возникновения Data Mining
    Востребованность интеллектуального анализа данных (ИАД) в современных условиях. Генерация, хранение и необходимость оперативной обработки огромных массивов данных финансовыми, торговыми, телекоммуникационными, научными и другими организациями. Обзор основных задач и методов ИАД. Примеры применения ИАД по работе с клиентами, по выявлению мошенничества, по прямому маркетингу, по кредитному скорингу и т.д.
  • Введение в язык программирования R и пакет RATTLE
    Основные объекты и операции языка R, векторы, факторы, списки, порождающие последовательности, индексирование, матрицы, работа со списками. Обзор пакетов и функций, используемых при ИАД, запись и считывание данных, базовые статистические функции, функции для работы с матрицами, мета-функции. Создание новых функций. Пакет RATTLE
  • Деревья решений. Задачи классификации, прогнозирования и скоринга
    Описывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5.
  • Построение деревьев решений с помощью пакетов языка программирования R
    Построение дерева решений по массиву данных с использованием пакета rpart. Графическое представление, решение задачи усечения дерева. Оценка качества полученной модели
  • Искусственные нейронные сети. Задачи классификации, прогнозирования и кластеризации.
    Описывается метод нейронных сетей. Рассмотрены элементы и архитектура, процесс обучения и явление переобучения нейронной сети. Приведен пример решения задачи при помощи аппарата нейронных сетей. Рассматриваются классификации нейронных сетей. Описан процесс подготовки данных для обучения. Подробно рассмотрены самоорганизующиеся карты Кохонена.
  • Построение искусственных нейронных сетей с помощью пакетов языка программирования R
    Построение нейронной сети по массиву финансовых данных с использованием пакета nnet с целью прогноза цен акций на бирже. Графическое представление. Оценка качества полученной модели.
  • Генетические (эволюционные) алгоритмы. Задачи оптимизации и обучения нейронных сетей.
    История возникновения и развития генетических алгоритмов. Основные понятия: хромосомы, функции приспособленности, операторы. Создание начальной популяции, отбор, размножение, мутации. Теорема Холланда. Пример использования генетических алгоритмов для оптимизации и обучения нейронных сетей.
  • Функции интенсивности отказа и анализ выживаемости в маркетинге.
    Анализ выживаемости. Функция выживаемости и функция интенсивности рисков. Процедура Каплана-Мейера. Доверительный интервал выживаемости. Сравнение двух функций выживаемости: логранговый критерий, критерий Гехана. Проблема удержания клиентов. Оценка ценности различных групп клиентов
  • Анализ связей
    Основные понятия и факты из теории графов. Визуализация данных с помощью графов с весами. Задача коммивояжёра. Алгоритм Клейнберга. Анализ связей как элемент поисковой системы Google. Пример использования анализа связей для нахождения групп клиентов компании с заданными характеристиками.
Элементы контроля

Элементы контроля

  • неблокирующий Работа на семинарах
  • неблокирующий Эссе
  • неблокирующий Итоговые модели
  • неблокирующий Доклад по эссе
  • неблокирующий Работа на семинарах
  • неблокирующий Эссе
  • неблокирующий Итоговые модели
  • неблокирующий Доклад по эссе
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.25 * Доклад по эссе + 0.25 * Итоговые модели + 0.25 * Работа на семинарах + 0.25 * Эссе
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hall, M., Witten, Ian H., Frank, E. Data Mining: practical machine learning tools and techniques. – 2011. – 664 pp.
  • Han, J., Kamber, M., Pei, J. Data Mining: Concepts and Techniques, Third Edition. – Morgan Kaufmann Publishers, 2011. – 740 pp.
  • James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
  • Чубукова И.А. - Data Mining - Национальный Открытый Университет "ИНТУИТ" - 2016 - 470с. - ISBN: 978-5-94774-819-2 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100582

Рекомендуемая дополнительная литература

  • Kantardzic, M., & Recorded Books, I. (2019). Data Mining : Concepts, Models, Methods, and Algorithms (Vol. Third edition). [Place of publication not identified]: Wiley-IEEE Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2282578