• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Современные методы принятия решений: Алгоритмы обработки больших данных

Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Финансовые технологии и анализ данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 4 модуль
Формат изучения: без онлайн-курса
Преподаватели: Анисковец Илья Григорьевич, Свешников Михаил Михайлович
Прогр. обучения: Финансовые технологии и анализ данных
Язык: русский
Кредиты: 6
Контактные часы: 36

Программа дисциплины

Аннотация

Настоящая программа учебной дисциплины устанавливает требования к образовательным результатам и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для студентов направления подготовки 01.04.02 Прикладная математика и информатика, обучающихся по образовательной программе магистратуры Финансовые технологии и анализ данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины является ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения

Планируемые результаты обучения

  • знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных;
  • владеть инструментами обработки данных в парадигме MapReduce;
  • уметь работать с большими данными в реальных задачах.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Онлайн обучение и линейные модели.
    Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
  • Введение в Apache Spark и оптимизация гиперпараметров
    Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
  • Рекомендательные системы
    Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
  • Бустинг для больших данных
    Подходы к распараллеливанию бустинга над решающими деревьями. Обзор реализации xgboost.
  • Введение в TensorFlow
    Вычислительная модель TensorFlow, примеры графов дифференцируемых вычислений для различных задач. Почему GPU дает ускорение. Рассмотрение задачи расчета word2vec представлений для слов.
  • Глубокие нейронные сети для классификации изображений
    Обзор основных архитектур, датасет ImageNet, особенности сверточных сетей. Эффективное использование нескольких GPU, использование нескольких машин с GPU.
  • Глубокие нейронные сети для классификации текстов
    Основы рекурентных нейросетей. Задача определения интента фразы по тексту. Распараллеливание обучения.
  • LSH для нахождения похожих объектов
    Нахождение похожих объектов на примере меры Жаккара. LSH на примере задачи нахождения похожих новостей.
  • Кластеризация больших данных
    Распределенный вариант алгоритма K-Means.
Элементы контроля

Элементы контроля

  • неблокирующий Проверочные работы
    Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой на усмотрение семинариста и лектора.
  • неблокирующий Домашние задания
    Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой на усмотрение семинариста и лектора.
  • неблокирующий Экзамен
    Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * Домашние задания + 0.2 * Проверочные работы + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Machine learning : a probabilistic perspective, Murphy, K. P., 2012
  • Теория принятия решений : учебник для вузов, Петровский, А. Б., 2009

Рекомендуемая дополнительная литература

  • Beysolow, T. (2018). Applied Natural Language Processing with Python : Implementing Machine Learning and Deep Learning Algorithms for Natural Language Processing. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892182
  • Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2017). Data Mining : Practical Machine Learning Tools and Techniques (Vol. Fourth edition). Cambridge, MA: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1214611