• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Глубинный анализ данных и текстов на базе IBM SPSS Modeler

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс по выбору (Бизнес-информатика)
Направление: 38.04.05. Бизнес-информатика
Когда читается: 2-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Бизнес-информатика
Язык: русский
Кредиты: 6
Контактные часы: 48

Программа дисциплины

Аннотация

Программная платформа IBM SPSS Modeler – это мощная платформа прогнозной аналитики, позволяющая извлекать из данных беспрецедентные объемы ценной информации, строить на ее основе прогнозы и принимать эффективные решения на всех уровнях управления. Владение подобным инструментом дает возможность анализировать тенденции, закономерности и взаимосвязи в структурированных и неструктурированных данных, прогнозировать на основе этого анализа будущие события и действовать для достижения желаемых результатов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов комплекса теоретических знаний и практических навыков аналитики текстовых данных и углубленного анализа многомерных данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать весь технологический процесс непрерывного поиска ценной информации в различных источниках данных с оперативным внедрением найденных закономерностей в практику бизнеса
  • Уметь извлекать из различных источников данные, необходимые для решения задач бизнес анализа в соответствии с этапами Межотраслевого стандарта Data Mining (CRISP-DM), использовать интерфейс визуального программирования для построения потоков обработки данных и моделирования
  • Владеть навыками быстрой разработки точных моделей прогнозирования и применять прогнозную аналитику на уровне отдельных пользователей, групп, систем и всего предприятия
  • Владеть навыками анализа многомерных данных с использованием методов деревьев решений, кластеризации и ассоциативных правил с применением программного продукта IBM SPSS Modeler
  • Владеть практическими навыками использования интерфейса визуального программирования для по-строения потоков обработки данных и их моделирования
  • Иметь навыки построения прогнозных моделей, использующих деловые знания и опыт, и внедрять их в деловые операции для усовершенствования процесса принятия решений
  • Знать алгоритмы и методы анализа данных, в том числе анализ текста, анализ сущностей, управление решениями и их оптимизацию, что позволяет получать знания в режиме реального времени
  • Уметь осуществлять выбор локального, облачного или гибридного вариантов развертывания для получения прогнозной аналитики с использованием встроенных служб, интеграции бизнес-аналитики и формирования простой отчетности
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в IBM SPSS Modeler
    Обзор создания потока. Построение потоков данных. Работа со узлами. Работа с потоками. Описания потока. Выполнение потоков. Работа с моделями. Добавление комментариев и аннотаций к узлам и потокам. Сохранение потоков данных. Загрузка файлов. Отображение потоков данных. Средство просмотра. Показ и скрытие результатов. Перемещение, копирование и удаление результатов. Изменение исходного выравнивания. Изменение выравнивания элементов вывода. Схема вывода. Добавление элементов в средстве просмотра. Поиск и замена информации в средстве просмотра. Обзор пропущенных значений. Обработка пропущенных значений.
  • Анализ данных с использованием IBM SPSS Modeler
    Параметры алгоритма для узла автоматического моделирования. Правила остановки для узла автоматического моделирования. Узел автоклассификации. Опции моделей узла автоклассификации. Дополнительные опции узла автоклассификации. Стоимости ошибочной классификации. Опции отклонения узла автоклассификации. Опции параметров узла автоклассификации. Узел автонумерации. Опции моделей узла автонумерации. Опции эксперта узла автонумерации. Опции параметров узла автонумерации. Узел автокластеризация. Опции модели узла автоматической кластеризации. Опции эксперта узла автокластеризация. Опции отбрасывания узла автокластеризации. Слепки автоматизированных моделей. Генерирование узлов и моделей. Генерирование диаграмм оценки. Графики оценки. Узел Кохонена. Опции моделей узла Кохонена. Дополнительные опции узлов Кохонена. Слепки моделей Кохонена. Сводка модели Кохонена. Узел k-средних. Опции моделей узла k-средних. Опции эксперта узла k-средних. Слепки моделей k-средних. Сводка моделей k-средних. Узел двухшаговой кластеризации. Опции модели узла двухшаговой кластеризации. Слепки двухшаговых моделей кластеров. Сводка двухшаговой модели. Узел кластера TwoStep-AS. Кластерный анализ Twostep-AS. Слепки моделей кластеров TwoStep-AS. Параметры слепков моделей кластеров TwoStep-AS. Средство просмотра кластеров. Построение диаграмм на основе моделей кластеров.
  • Предиктивное моделирование с использованием IBM SPSS Modeler
    Модели деревьев решений. Интерактивный построитель деревьев Слепок модели деревья решений. Средство просмотра деревья решений. Модель нейросетей. Использование нейронных сетей совместно с унаследованными потоками. Целевые показатели. Основные параметры. Правила остановки. Ансамбли. Дополнительные опции модели. Сводка для модели. Важность предикторов. Предсказанные против наблюденных. Классификация. Линейные модели. Линейные-AS модели. Логистический узел. Опции моделей узла логистической регрессии. Опции сходимости логистической регрессии. Расширенный вывод для логистической регрессии. Опции шагового отбора логистической регрессии. Узел PCA/Factor. Опции моделей узла PCA/Factor модели. Узел дискриминанта. Узел обобщенной линейной модели. Расширенный вывод для обобщенных линейных. Обобщенные линейные смешанные модели. Узел байесовская сеть. Опции модели узла байесовской сети. Дополнительные опции узла байесовской сети. Слепки моделей байесовской сети. Параметры модели байесовской сети. Сводка моделей байесовской сети.
  • Анализ текстов с использованием IBM SPSS Modeler
    Чтение в исходном тексте. Принципы работы извлечения. Принципы работы категоризации. Узел списка файлов. Использование узла список файлов для исследования текстовых данных. Узел Веб-фид. Использование узла веб-фидов для исследования текстовых данных. Режим моделирования Text Mining. Добавление расположенного выше узла выборки для экономии времени. Использование узла Text Mining в потоке. Слепок Text Mining: модель понятий. Использование слепков модели понятий в потоке. Слепок Text Mining: модель категорий. Использование слепков модели категорий в потоке.
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
    Контрольная работа формируется на основе типовых заданий, решаемых в рамках практических занятий
  • неблокирующий Контрольное домашнее задание
    Выполнение домашнего задания предусматривает построение моделей анализа информации и текстов, выявление регулярных выражений, построение аналитических срезов и фильтров, выделение корреляций между срезами, отображение взаимосвязей и визуализацию итогов анализа в системе IBM SPSS Modeler
  • неблокирующий Аудиторная работа
  • неблокирующий Экзамен
    Экзаменационная работа состоит из двух частей: тест и практическая часть. Тест представляет из себя 10 вопросов закрытого типа, практическая часть – проведение анализа данных заданного типа, на основе видов молей, пройденных после проведения контрольной работы. Платформа проведения: Экзамен проводится на платформах MS Teams и Canvas LMS. К экзамену необходимо подключиться за 15 минут до начала. Компьютер студента должен удовлетворять требованиям: https://docs.microsoft.com/ru-ru/microsoftteams/hardware-requirements-for-the-teams-app Для участия в экзамене студент обязан: Не позднее 7 дней до проведения экзамена проверить работоспособность компьютерного оборудования, необходимого для сдачи экзамена и убедиться в соответствие имеющегося оборудования требованиям к компьютеру для участия в экзамене на платформах MS Teams и Canvas LMS; Войти на платформы MS Teams и Canvas LMS под личной учетной записью (используется аккаунт студента @edu.hse.ru); Перед началом экзамена проверить работоспособность микрофона, колонок или наушников для передачи звука и видеокамеры, скорость работы сети Интернет (для наилучшего результата рекомендуется подключение компьютера к сети через кабель); Подготовить необходимые для проведения экзамена инструменты: ручка, листы бумаги, калькулятор и т. д.); Отключить в диспетчере задач компьютера иные приложения, кроме приложения MS Teams или браузера, в котором будет выполняться вход на платформы MS Teams и Canvas LMS, а также необходимого окружения Python. В случае, если одно из необходимых условий участия в экзамене невозможно выполнить, необходимо за 2 недели до даты проведения экзамена проинформировать об этом преподавателя или сотрудника учебного офиса для принятия решения об участии студента в экзаменах. Во время экзамена студентам запрещено: Выключать видеокамеру; Пользоваться конспектами, учебниками, прочими учебными материалами; Покидать место выполнения экзаменационного задания (выходить за угол обзора камеры); Отводить взгляд от экрана компьютера, рабочего стола; Пользоваться умными гаджетами (смартфон, планшет и др.); Привлекать посторонних лиц для помощи в проведении экзамена, разговаривать с посторонними во время выполнения заданий; Вслух громко зачитывать задания. Во время экзамена студентам разрешено: Использовать бумагу, ручку для ведения записей, расчетов; Использовать калькулятор для ведения расчетов; Включать микрофон во время экзамена для ответов на вопросы преподавателя; Запрашивать у преподавателя дополнительную информацию, связанную с выполнением экзаменационного задания; Взаимодействовать с другими студентами по разрешению преподавателя. Нарушения связи: Кратковременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами MS Teams и Canvas LMS не более 1 минуты. Долговременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами MS Teams и Canvas LMS более 1 минуты. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи экзамена. В случае долговременного нарушения связи с платформами MS Teams и Canvas LMS во время выполнения экзаменационного задания, студент должен уведомить об этом преподавателя, зафиксировать факт потери связи с платформой (скриншот, ответ от провайдера сети Интернет) и обратиться в учебный офис с объяснительной запиской о случившемся для принятия решения о пересдаче экзамена.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.1 * Аудиторная работа + 0.3 * Контрольная работа + 0.3 * Контрольное домашнее задание + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • Груздев А.В. - Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес - Издательство "ДМК Пресс" - 2018 - 642с. - ISBN: 978-5-97060-539-4 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/123700