• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2018/2019

Методы извлечения нового знания из данных большого объема

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Направление: 01.04.04. Прикладная математика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: Full time
Прогр. обучения: Суперкомпьютерное моделирование в науке и инженерии
Язык: русский
Кредиты: 4

Программа дисциплины

Аннотация

Целями освоения дисциплины «Методы извлечения нового знания из данных большого объема» являются развитие магистрантом основных понятий и терминологий научного подхода по извлечению нового знания из данных большого объема. Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • Линейная алгебра • Теория вероятностей и математическая статистика • Методы оптимизации • Владение навыками программирования на любом языке программирования высокого уровня (рекомендуется Python) Результат освоения дисциплины - студент должен продемонстрировать знание методов и подходов к обработке данных большого объема и извлечению из них нового знания на основе информации по темам курса (компетенции ОПК-2, ПК-4, ПК-7). Охват предметной области: основные задачи машинного обучения, методы их решения, работа с широко известными библиотеками машинного обучения.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Методы извлечения нового знания из данных большого объема» являются развитие магистрантом основных понятий и терминологий научного подхода по извлечению нового знания из данных большого объема.
Планируемые результаты обучения

Планируемые результаты обучения

  • Умение вычислять основные статистические показатели
  • Умение применять эвристические методы обработки данных
  • Умение рисовать графики и гистограммы
  • Умение разрабатывать сценарии обработки данных
  • Умение строить модели машинного обучения
  • Умение разрабатывать параллельные сценарии обработки данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Математические методы и методы статистической обработки данных.
    Описание данных, определение необходимого объема выборки. Изучение сходства/различий, статистические критерии. Исследование зависимостей, корреляционный анализ, дисперсионный анализ, регрессионный анализ. Снижение размерности, факторный анализ, метод главных компонент. Классификация, дискриминантный анализ, кластерный анализ, группировка.
  • Эвристические методы обработки данных.
    Методы оценки, бескритериальные, критериальные. Оценочно-поисковые методы. Методы проверки гипотез. Создание математических моделей и подбор параметров моделей.
  • Методы визуализации данных.
    Стандартные 2D/3D образы, гистограммы, линейные графики и т.п. Геометрические преобразования, диаграмма разброса данных. Иерархические образы.
  • Методы разработки сценариев обработки данных.
    Форматы хранения данных. Текстовые, csv, json, xml. Бинарные MS Excel, HDF5. SQL, Google Big Query. Методы доступа к данным, прямое чтение, вызов хранимых процедур. Частичное чтение. Пакетная обработка данных (Batch). Разреженные матрицы. Параллельные вычисления.
  • Алгоритмы и методы извлечения нового знания. Задачи машинного обучения.
    Методы и библиотеки машинного обучения. Подготовка данных. Библиотеки Pandas, SciPy. Метрики качества прогнозов. Библиотеки scikit-learn, xgboost, Microsoft LightGBM, Tensorflow. Онлайн обучение.
  • Распределенные вычисления.
    Hadoop, Yarn, MapReduce. Distributed XGBoost. Distributed TensorFlow.
Элементы контроля

Элементы контроля

  • неблокирующий аудиторные занятия
  • неблокирующий самостоятельные работы
  • неблокирующий Экзамен
    Экзамен проводится в устной форме (опрос по материалам курса). Экзамен проводится на платформе Zoom (https://www.zoom.us/). К экзамену необходимо подключиться согласно расписанию ответов, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка Zoom. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи менее минуты. Долговременным нарушением связи во время экзамена считается нарушение минута и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи подразумевает использование усложненных заданий.
  • неблокирующий Контрольно-измерительные материалы
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.3 * аудиторные занятия + 0.3 * самостоятельные работы + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Python for data analysis : data wrangling with pandas, numPy, and IPhython, Mckinney, W., 2017
  • Изучаем Python, Лутц М., Киселева А., 2014

Рекомендуемая дополнительная литература

  • Теория вероятностей и математическая статистика : учебник для вузов, Колемаев В. А., Калинина В. Н., 1999