• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Modern Methods of Decision Making: Big Data Processing Algorithms

2017/2018
Academic Year
RUS
Instruction in Russian
8
ECTS credits
Course type:
Compulsory course
When:
1 year, 4 module

Instructor

Программа дисциплины

Аннотация

Настоящая программа учебной дисциплины устанавливает требования к образовательным результатам и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для студентов направления подготовки 01.04.02 Прикладная математика и информатика, обучающихся по образовательной программе магистратуры Финансовые технологии и анализ данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины является ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Результаты освоения дисциплины

Результаты освоения дисциплины

  • знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных;
  • владеть инструментами обработки данных в парадигме MapReduce;
  • уметь работать с большими данными в реальных задачах.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Онлайн обучение и линейные модели.
    Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
  • Введение в Apache Spark и оптимизация гиперпараметров
    Обобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
  • Рекомендательные системы
    Особенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
  • Бустинг для больших данных
    Подходы к распараллеливанию бустинга над решающими деревьями. Обзор реализации xgboost.
  • Введение в TensorFlow
    Вычислительная модель TensorFlow, примеры графов дифференцируемых вычислений для различных задач. Почему GPU дает ускорение. Рассмотрение задачи расчета word2vec представлений для слов.
  • Глубокие нейронные сети для классификации изображений
    Обзор основных архитектур, датасет ImageNet, особенности сверточных сетей. Эффективное использование нескольких GPU, использование нескольких машин с GPU.
  • Глубокие нейронные сети для классификации текстов
    Основы рекурентных нейросетей. Задача определения интента фразы по тексту. Распараллеливание обучения.
  • LSH для нахождения похожих объектов
    Нахождение похожих объектов на примере меры Жаккара. LSH на примере задачи нахождения похожих новостей.
  • Кластеризация больших данных
    Распределенный вариант алгоритма K-Means.
Элементы контроля

Элементы контроля

  • неблокирующий Created with Sketch. Проверочные работы
    Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой на усмотрение семинариста и лектора.
  • неблокирующий Created with Sketch. Домашние задания
    Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой на усмотрение семинариста и лектора.
  • неблокирующий Created with Sketch. Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * Домашние задания + 0.2 * Проверочные работы + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Machine learning : a probabilistic perspective, Murphy K. P., 2012
  • Теория принятия решений : учебник для вузов, Петровский А. Б., 2009

Рекомендуемая дополнительная литература

  • Beysolow, T. (2018). Applied Natural Language Processing with Python : Implementing Machine Learning and Deep Learning Algorithms for Natural Language Processing. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892182
  • Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2017). Data Mining : Practical Machine Learning Tools and Techniques (Vol. Fourth edition). Cambridge, MA: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1214611