• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Наука о данных

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
4-й курс, 1, 3 модуль

Преподаватель

Программа дисциплины

Аннотация

Данная дисциплина реализуется в формате Blended с использованием онлайн-курса НИУ ВШЭ «Наука о данных» (https://openedu.ru/course/spbstu/BIGDATA/) в качестве курса лекций. Дисциплина относится к блоку дисциплин Вариативной части профиля Профессионального цикла. Изучение данной дисциплины базируется на следующих дисциплинах: Дискретная математика, Алгебра, Теория вероятностей и математическая статистика, Методы программирования, Методы анализа данных. Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: ПК-8/ИК-С2 Способность корректно применять при решении профессиональных задач аппарат математических и естественных наук, в части, формируемой названными выше дисциплинами. Основные положения дисциплины должны быть использованы в дальнейшем при изучении дисциплин: Криптографические методы защиты информации, Криптографические протоколы, Методы синтеза и анализа современных криптографических алгоритмов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у обучающихся навыка разработки математических моделей защищаемых процессов и средств защиты информации и систем, обеспечивающих информационную безопасность объектов
  • Формирование у обучающихся навыков обоснования и выбора рационального решения по уровню обеспечения защищенности компьютерной системы с учетом заданных требований
Планируемые результаты обучения

Планируемые результаты обучения

  • Знание основных положений науки о данных
  • Умение применять сообразные случаю модели данных
  • Приобретение опыта решения смоделированной задачи в профессиональной области на основе методов работы с данными
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в большие данные
    Лекция 1.1. Большие данные: определение, Big Data терминология Лекция 1.2. История появления термина Big Data, Причины появления Big Data Лекция 1.3. Характеристики Big Data, Рост объемов информации Лекция 1.4. Источники Big Data, Четыре основных типа данных, Аналитика данных Лекция 1.5. Задачи, решаемые Big Data, Статистика объёма данных Лекция 1.6. Big data для операторов связи, Big data в банках, Европейские программы, связанные с Big Data.
  • Жизненный̆ цикл аналитики данных
    Лекция 2.1. Введение, Понятие жизненного цикла аналитики данных Лекция 2.2. Business Intelligence , BI-платформа, ETL процесс, Средства BI Лекция 2.3. OLAP, OLAP - Многомерный куб, Пример многомерного куба Лекция 2.4. Продвинутая визуализация, Предиктивное моделирование и DataMining Лекция 2.5. Инструменты анализа Лекция 2.6. Power Query, MS Power BI Лекция 2.7. Pyramid Analytics, Компоненты аналитики MS SQL server (MDS, SSIS, SSAS) Лекция 2.8. Business Intelligence vs. Data Science.
  • Высокопроизводительные вычисления
    Лекция 3.1.История Hadoop и Map Reduce, Hadoop Distributed File System Лекция 3.2.Технология Map Reduce, Примеры применения Map Reduce Лекция 3.3.Достоинства модели Map Reduce, Недостатки модели Map Reduce Лекция 3.4.Архитектура Hadoop, Hadoop MapReduce 1.0 Лекция 3.5.Hadoop Map Reduce 2.0, Варианты использования Hadoop Лекция 3.6.Экосистема Hadoop, Spark
  • Масштабирование и многоуровневое хранение данных
    Лекция 4.1. Масштабируемость Лекция 4.2. Репликация Лекция 4.3. CAP – теорема Лекция 4.4. Основы NoSQL Лекция 4.5. MongoDB
  • Визуализация данных и результатов анализа
    Лекция 5.1. Типы визуализации, Задачи визуализации Лекция 5.2. Требования к визуализации, Традиционные виды визуализации Лекция 5.3. Графики и диаграммы, Инфографика Лекция 5.4. Презентация и анализ данных, Интерактивный сторителлинг Лекция 5.5. Дашборды и бизнес аналитика, Визуализация в медицине и науке Лекция 5.6. Карты и картограммы, Облако тегов, Кластерграмма Лекция 5.7. Исторический поток, Пространственный поток Лекция 5.8. Язык R, Отличия языка R, Основные возможности R Лекция 5.9. Типы данных, Amazon S3, Достоинства Amazon S3 Лекция 5.10. Многокомпонентная загрузка, Особенности хранения в S3 Лекция 5.11.Дедупликация данных
  • Статистические методы анализа данных
    Лекция 6.1. Статистические гипотезы, Статистические критерии Лекция 6.2. Машинное обучение Лекция 6.3. Метрический классификатор Лекция 6.4. Линейный классификатор, ROC – кривая Лекция 6.5. Кластерный анализ Лекция 6.6. Алгоритм К-means, Алгоритм С-means Лекция 6.7. Поиск ассоциативных правил, Свойство анти- монотонности
  • Анализ текста
    Лекция 7.1. Особенности анализа текста, варианты использования Лекция 7.2. Полнотекстовый поиск Лекция 7.3. Lucene Лекция 7.4. Solr Лекция 7.5. Elasticsearch Лекция 7.6. Word2Vec
Элементы контроля

Элементы контроля

  • неблокирующий Тесты
    Рассчитывается как среднее арифметическое результатов выполнения тестов, приведенное, при необходимости к 10-балльной шкале. Способ округления: арифметический.
  • неблокирующий Экзамен
    В процессе экзамена студенты выдается билет с 3 вопросами и отводится время не менее 40 минут на подготовку к ответу. По желанию экзаменатора один вопрос билета может представлять собой задачу, решение которой следует представить и пояснить во время ответа.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * Тесты + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в анализ данных : учебник и практикум для вузов, Миркин, Б. Г., 2015

Рекомендуемая дополнительная литература

  • Анализ данных в MS Excel : основные сведения о MS Excel, статистические таблицы и графики, статистические функции, пакет анализа (анализ данных) : учеб. пособие для вузов, Мхитарян, В. С., 2018
  • Анализ данных на компьютере, Тюрин, Ю. Н., 2003
  • Теория вероятностей и математическая статистика : учебник для вузов, Колемаев, В. А., 1999