Магистратура
2020/2021
Методы извлечения нового знания из данных большого объема и машинное обучение
Статус:
Курс обязательный (Суперкомпьютерное моделирование в науке и инженерии)
Направление:
01.04.04. Прикладная математика
Кто читает:
Департамент прикладной математики
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Горчаков Андрей Юрьевич
Прогр. обучения:
Суперкомпьютерное моделирование в науке и инженерии
Язык:
русский
Кредиты:
5
Контактные часы:
56
Программа дисциплины
Аннотация
Целями освоения дисциплины «Методы извлечения нового знания из данных большого объема» являются развитие магистрантом основных понятий и терминологий научного подхода по извлечению нового знания из данных большого объема. Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • Линейная алгебра • Теория вероятностей и математическая статистика • Методы оптимизации • Владение навыками программирования на любом языке программирования высокого уровня (рекомендуется Python) Результат освоения дисциплины - студент должен продемонстрировать знание методов и подходов к обработке данных большого объема и извлечению из них нового знания на основе информации по темам курса (компетенции ОПК-2, ПК-4, ПК-7). Охват предметной области: основные задачи машинного обучения, методы их решения, работа с широко известными библиотеками машинного обучения.
Цель освоения дисциплины
- Целями освоения дисциплины «Методы извлечения нового знания из данных большого объема» являются развитие магистрантом основных понятий и терминологий научного подхода по извлечению нового знания из данных большого объема.
Планируемые результаты обучения
- Умение вычислять основные статистические показатели
- Умение применять эвристические методы обработки данных
- Умение рисовать графики и гистограммы
- Умение разрабатывать сценарии обработки данных
- Умение строить модели машинного обучения
- Умение разрабатывать параллельные сценарии обработки данных
Содержание учебной дисциплины
- Математические методы и методы статистической обработки данных.Описание данных, определение необходимого объема выборки. Изучение сходства/различий, статистические критерии. Исследование зависимостей, корреляционный анализ, дисперсионный анализ, регрессионный анализ. Снижение размерности, факторный анализ, метод главных компонент. Классификация, дискриминантный анализ, кластерный анализ, группировка.
- Эвристические методы обработки данных.Методы оценки, бескритериальные, критериальные. Оценочно-поисковые методы. Методы проверки гипотез. Создание математических моделей и подбор параметров моделей.
- Методы визуализации данных.Стандартные 2D/3D образы, гистограммы, линейные графики и т.п. Геометрические преобразования, диаграмма разброса данных. Иерархические образы.
- Методы разработки сценариев обработки данных.Форматы хранения данных. Текстовые, csv, json, xml. Бинарные MS Excel, HDF5. SQL, Google Big Query. Методы доступа к данным, прямое чтение, вызов хранимых процедур. Частичное чтение. Пакетная обработка данных (Batch). Разреженные матрицы. Параллельные вычисления.
- Алгоритмы и методы извлечения нового знания. Задачи машинного обучения.Методы и библиотеки машинного обучения. Подготовка данных. Библиотеки Pandas, SciPy. Метрики качества прогнозов. Библиотеки scikit-learn, xgboost, Microsoft LightGBM, Tensorflow. Онлайн обучение.
- Распределенные вычисления.Hadoop, Yarn, MapReduce. Distributed XGBoost. Distributed TensorFlow.
Элементы контроля
- аудиторные занятия
- самостоятельные работы
- ЭкзаменЭкзамен проводится в устной форме (опрос по материалам курса). Экзамен проводится на платформе Zoom (https://www.zoom.us/). К экзамену необходимо подключиться согласно расписанию ответов, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка Zoom. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи менее минуты. Долговременным нарушением связи во время экзамена считается нарушение минута и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи подразумевает использование усложненных заданий.
- Контрольно-измерительные материалы
- аудиторные занятия
- самостоятельные работы
- ЭкзаменЭкзамен проводится в устной форме (опрос по материалам курса). Экзамен проводится на платформе Zoom (https://www.zoom.us/). К экзамену необходимо подключиться согласно расписанию ответов, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка Zoom. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи менее минуты. Долговременным нарушением связи во время экзамена считается нарушение минута и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи подразумевает использование усложненных заданий.
- Контрольно-измерительные материалы
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.3 * аудиторные занятия + 0.3 * самостоятельные работы + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Python for data analysis : data wrangling with pandas, numPy, and IPhython, Mckinney, W., 2017
- Изучаем Python, Лутц, М., 2014
Рекомендуемая дополнительная литература
- Теория вероятностей и математическая статистика : учебник для вузов, Колемаев, В. А., 1999