Анализ неструктурированных данных

Магистратура 2020/2021

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс по выбору (Бизнес-информатика)

Направление: 38.04.05. Бизнес-информатика

Кто читает: Департамент бизнес-информатики

Где читается: Высшая школа бизнеса

Когда читается: 1-й курс, 3, 4 модуль

Формат изучения: с онлайн-курсом

Преподаватели: Бекларян Армен Левонович

Прогр. обучения: Бизнес-информатика

Язык: русский

Кредиты: 5

Контактные часы: 40

Дополнительные материалы в LMS Задать вопрос

Аннотация

В рамках дисциплины «Анализ неструктурированных данных» студенты имеют возможность ознакомится с теоретическими и методологическими основами в области систем анализа неструктурированной информации, а также с практическими навыками, необходимыми для внедрения и использования такого сорта систем. Среди рассматриваемых методов анализа, особое внимание уделяется Контент анализу (Content analysis), Деревьям решений (Decision tree), Кластерному анализу (Cluster Analysis), Генетическим (эволюционным) алгоритмам (Genetic Algorithms) и Нейронным сетям (Neural network). Также разбирается вычислительная парадигма MapReduce и концепция NoSQL. На практических занятиях, с целью закрепления навыков и знаний, используется программное обеспечение от ведущих вендеров такое, как RStudio, JetBrains PyCharm, IBM SPSS Statistics, IBM Cognos Analytics, Microsoft Power BI.

Цель освоения дисциплины

Формирование теоретических и методологических основ в области анализа неструктурированной информации, а также практических навыков, использования алгоритмов интеллектуального анализа данных, реализованных в специализированных программных продуктах
Формирование теоретических основ и навыков использования парадигмы распределенных вычислений MapReduce и концепции баз данных NoSQL
Формирование навыков проведения сравнительного анализа основных моделей, включая методы индукции правил, сети Кохонена и ассоциативные правила

Планируемые результаты обучения

Знать технические признаки, характеризующие «Большие данные»
Понимать принципы количественной и качественной стратегии анализа текстов
Понимать принципы работы эвристических алгоритмов поиска, эволюционных вычислений, этапы генетического алгоритма
Знать методы распознавания образов, дискриминантного анализа, нелинейной оптимизации и этапы формирования нейронных сетей
Понимать концепцию параллелизма
Знать принципы разработки и выполнения распределённых программ, расширение вычислительных мощностей посредством добавления в кластер дополнительных узлов
Знать модели развёртывания облачного сервиса
Уметь использовать современные методы аналитики, а также различные способы визуализации, обнаружения знаний и закономерностей, априорно неизвестных
Уметь строить модели машинного обучения
Уметь применять векторизацию текста в рамках контент-анализа

Содержание учебной дисциплины

Концепция «Больших Данных»
Что такое «Большие данные», и что они нам сулят. Разница между бизнес-аналитикой и «Большими данными». Устаревание информации. Рост объемов данных на фоне вытеснения аналоговых средств хранения. Корректная интерпретация информационных потоков. Обработка информационных потоков. Предпосылки применения контент-анализа в различных исследованиях. Необходимость в аналитической работе с большими данными. Явная (выраженная) и скрытая (структурная) информация. Количественная и качественная стратегия анализа текстов. Возможности и ограничения каждого из подходов. Процедура контент-анализа. Определение круга проблем для контент-анализа. Начальный этап исследования: формулирование целей и задач исследования, выбор эмпирического материала, выдвижение рабочих гипотез. Операциональный этап исследования: определение категорий и подкатегорий, выбор единиц анализа, установление правил кодирования. Этап счета. Этап интерпретации результатов. Презентация результатов. Типичные ошибки при проведении контент-анализа. Технические признаки, характеризующие «Большие данные». Принцип V3 – Volume (объём данных), Variety (разнообразие данных) и Velocity (скорость генерации и работы с данными). Интеграция, миграция и построение хранилищ данных. Высокопроизводительные вычисления (High Performance Computing, HPC) при выполнении аналитических исследований. Grid computing (распределенные вычисления на нескольких серверах), in-database analytics (частичный перевод нагрузки при аналитических вычислениях в СУБД, а также регламентное применение готовых аналитических моделей к новым данным полностью на стороне СУБД) и in-memory analytics (применение аналитики прямо в оперативной памяти сервера СУБД).
Неструктурированная информация
Эвристические алгоритмы поиска, эволюционное вычисление, этапы генетического алгоритма: задание целевой функции (приспособленности) для особей популяции, создание начальной популяции, размножение (скрещивание), мутирование, вычисление значения целевой функции для всех особей, формирование нового поколения (селекция). Задача кластеризации, методы кластеризации, иерархическая кластеризация, алгоритм k-средних, зонтичная кластеризация, методы ненаправляемого обучения (Unsupervised Learning). Постановка задачи классификации, подходы и применения, построение и обучение классификатора, оценка качества классификации, рубрикации тренировочных данных (Training Data Set), методы управляемого (направляемого) обучения (Supervised Learning). Методы распознавания образов, дискриминантный анализ, нелинейная оптимизация, этапы формирования нейронных сетей: сбор данных для обучения, подготовка и нормализация данных, выбор топологии сети, экспериментальный подбор характеристик сети, экспериментальный подбор параметров обучения, собственно обучение, проверка адекватности обучения, корректировка параметров, окончательное обучение, вербализация сети с целью дальнейшего использования. Совместное использование компьютерных технологий и лингвистики для создания алгоритмов, позволяющих анализировать естественные (человеческие) языки. Применение методов обработки естественных языков и других аналитических методов для выявления и извлечения из анализируемого текста субъективной информации, характеризующей настроения, мнения, отношение людей к проблеме. Рассмотрение следующих основных задач: синтез речи, распознавание речи, анализ текста, синтез текста, машинный перевод, вопросно-ответные системы, информационный поиск, извлечение информации, анализ тональности текста, анализ высказываний, упрощение текста.
Аппаратное и программное обеспечение «Больших Данных»
Вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров, образующих кластер. Шаги Map и Reduce. Предварительная обработка входных данных и свёртка данных. Концепция параллелизма. Шаблоны доступа к данным, хеш-таблица, деревья, таксономия NoSQL, колоночные СУБД, bigtable. Разработка и выполнение распределённых программ, расширение вычислительных мощностей посредством добавления в кластер дополнительных узлов, технология Hadoop, распределённая файловая система HDFS (Hadoop Distributed File System), интеграция с NoSQL и MapReduce.
Масштабирование и многоуровневое хранение «Больших Данных»
Модели развёртывания: частное облако, публичное облако, гибридное облако, общественное облако. Модели обслуживания: программное обеспечение, платформа, инфраструктура. Экономические аспекты центров обработки данных. Безопасность при хранении и пересылке данных. Проблема «последней мили». Обработка Fast Data, подтверждение и корректировка априорных знаний и гипотез, синхронизация скорости работы с ростом объема данных. Получение знаний посредством Big Analytics, преобразования зафиксированной в данных информации в новое знание, принцип «обучения с учителем». Высший уровень работы с данными Deep Insight, обучение без учителя (unsupervised learning), использование современных методов аналитики, а также различные способы визуализации, обнаружение знаний и закономерностей, априорно неизвестных.
Практическое применение «Больших Данных»
Практическое применение решений IBM Cognos Analytics и ресурсов платформы IBM Cloud. Понятие шаблона, создание правил и категорий. Персональная база данных, фразовый поиск, нечеткий поиск. Возможности уточнения результатов запросов с учетом структуры текста. Анализ совместной встречаемости (collocate analysis) и коэффициент связи категорий (Z-score). Практическое применение решений векторизации текста. Контент-анализ массовой корреспонденции и социологических опросов. Прямые пропорциональные закономерности, аддитивные закономерности, мультипликативные закономерности.

Элементы контроля

Реферат
Реферат формируется на основе лекционных материалов, отечественных и зарубежных (англоязычных) публикаций по вопросам теории и практики систем анализа неструктурированной информации.
Контрольное домашнее задание
Выполнение домашнего задания предусматривает построение моделей анализа неструктурированной информации, выявление регулярных выражений, построение аналитических срезов и фильтров, выделение корреляций между срезами, отображение взаимосвязей и визуализацию итогов анализа в системах IBM Cognos Analytics или Microsoft Power BI.
Экзамен
Экзаменационная работа состоит из двух частей: тест и письменная часть. Тест представляет из себя 10 вопросов закрытого типа, письменная часть – анализ данных в рамках заданной предметной области и проблематики. Форма экзамена: Экзамен проводится в письменной форме. Платформа проведения: Экзамен проводится на платформе Canvas LMS. Для участия в экзамене студент обязан: Не позднее 7 дней до проведения экзамена проверить работоспособность компьютерного оборудования, необходимого для сдачи экзамена и убедиться в соответствие имеющегося оборудования требованиям к компьютеру для участия в экзамене на платформе Canvas LMS; Войти на платформу Canvas LMS под личной учетной записью (используется аккаунт студента @edu.hse.ru); Перед началом экзамена проверить скорость работы сети Интернет (для наилучшего результата рекомендуется подключение компьютера к сети через кабель); Подготовить необходимые для проведения экзамена инструменты: ручка, листы бумаги, калькулятор и т. д.; Отключить в диспетчере задач компьютера иные приложения, кроме браузера, в котором будет выполняться вход на платформу Canvas LMS, а также необходимого окружения Python. В случае, если одно из необходимых условий участия в экзамене невозможно выполнить, необходимо за 2 недели до даты проведения экзамена проинформировать об этом преподавателя или сотрудника учебного офиса для принятия решения об участии студента в экзаменах. Во время экзамена студентам запрещено: Пользоваться конспектами, учебниками, прочими учебными материалами; Покидать место выполнения экзаменационного задания; Пользоваться умными гаджетами (смартфон, планшет и др.); Привлекать посторонних лиц для помощи в проведении экзамена, разговаривать с посторонними во время выполнения заданий; Вслух громко зачитывать задания. Во время экзамена студентам разрешено: Использовать бумагу, ручку для ведения записей, расчетов; Использовать калькулятор для ведения расчетов; Запрашивать у преподавателя дополнительную информацию, связанную с выполнением экзаменационного задания; Взаимодействовать с другими студентами по разрешению преподавателя. В случае долговременного нарушения связи с платформами MS Teams и Canvas LMS во время выполнения экзаменационного задания, студент должен уведомить об этом преподавателя, зафиксировать факт потери связи с платформой (скриншот, ответ от провайдера сети Интернет) и обратиться в учебный офис с объяснительной запиской о случившемся для принятия решения о пересдаче экзамена.
Аудиторная работа

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.21 * Аудиторная работа + 0.294 * Контрольное домашнее задание + 0.196 * Реферат + 0.3 * Экзамен

Программа дисциплины