• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Машинное обучение и анализ больших данных

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 3, 4 модуль

Преподаватель


Просветов Артем Владимирович

Программа дисциплины

Аннотация

Настоящая дисциплина относится к блоку дисциплин базовой части цикла дисциплин программы «Коммуникации, основанные на данных». В результате успешного освоения курса студенты будут: • знать типологии задач и метрики качества в машинном обучении; • уметь корректно использовать математические модели для прогнозирования показателей коммуникационной среды, корректно использовать математические модели и алгоритмы для анализа текстов в PR и рекламе, адекватно оценивать корректность использования статистических методов, применяемых при формулировке и решении задач анализа коммуникационной среды; • владеть статистическим анализом данных с использованием Python и Jupyter, базовыми навыками анализа данных, математическим аппаратом для оптимизации рекламной деятельности.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины "Машинное обучение и анализ больших данных" является обучение студентов навыкам использования машинного обучения и анализа данных для последующей разработки стратегий продвижения продуктов и услуг в цифровом пространстве.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные определения науки о данных, направления применения анализа больших данных в PR, рекламе и маркетинге.
  • Знает базовые понятия теории вероятности. Владеет математическим аппаратом для оптимизации рекламной деятельности.
  • Адекватно оценивает корректность использования статистических методов, применяемых при формулировке и решении задач, владеет базовыми навыками анализа данных.
  • Демонстрирует уверенное владение статистическим анализом данных с использованием Python и Jupyter.
  • Адекватно оценивает корректность использования методов анализа данных, применяемых при решении исследовательских задач.
  • Применяет методы кластеризации для анализа данных.
  • Применяет метод логистической регрессии для анализа данных.
  • Корректно применяет ансамбли моделей Random Forest и Gradient Boosting в машинном обучении.
  • Использует базовые метрики качества в задачах классификации, кластеризации и регрессии.
  • Понимает базовые принципы применения нейронных сетей.
  • Понимает особенности применения сверточных и рекуррентных нейронных сетей для анализа текста при решении коммуникационных задач.
  • Понимает особенности применения рекомендательных систем, соревновательных нейронных сетей и автокодировщиков для применения в маркетинговых коммуникациях.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Что такое большие данные и аналитика данных?
    История появления науки о данных. Определения и термины. Приложения и системы в больших данных. Как началась эра больших данных. Откуда берутся большие данные. Машинные данные и способы их получения. Интеграция разнородных данных.
  • Введение в теорию вероятности и её применение на практике.
    Базовые понятия теории вероятности. Математическое ожидание. Теорема Байеса. Центральная Предельная Теорема.
  • Введение в статистику и её применение на практике.
    Базовые понятия статистики. Проверка гипотез. Построение доверительных интервалов. Параметрические тесты. Непараметрические тесты.
  • Введение в программирование на Python.
    Основы синтаксиса языка Python. Работа с пакетами Numpy, Scipy. Знакомство с Pandas.
  • Введение в машинное обучение.
    Типология задач машинного обучения. Обучение с учителем. Обучение без учителя. Частичное обучение. Обучение с подкреплением. Обучение без учителя. Визуализация данных.
  • Практика работы с данными на основе задачи кластеризации.
    Метод кластеризация К-средних. Другие методы кластеризации. Методы понижения размерности (метод главных компонент).
  • Практическое построение моделей на основе логистической регрессии.
    Математическая основа метода логистической регрессии. Работа с признаками модели. Проблема переобучения. Использование регуляризаций L1 и L2. Оценка качества модели.
  • Ансамбли моделей в машинном обучении.
    Основная мотивация в использовании ансамблей моделей. Random Forest. Gradient Boosting.
  • Метрики качества в машинном обучении.
    Базовые метрики качества, используемые в задачах классификации. Базовые метрики качества, используемые в задачах регрессии. Базовые метрики качества, используемые в задачах кластеризации.
  • Нейронные сети: введение.
    Базовые понятия нейронных сетей. Принцип обратного распространения ошибки. Машины Больцмана. Автоэнкодеры, GAN. Применение нейронной сети для определения оптимального канала коммуникации с клиентом.
  • Нейронные сети: сверточные и рекуррентные сети.
    Обзор базовых элементов сверточных нейронных сетей. Распознавание рукописных символов с помощью нейронной сети. Обзор базовых элементов рекуррентных нейронных сетей. Обучение нейронной сети оценке эмоциональной окраски текстов, используя данные социальных сетей.
  • Нейронные сети для рекомендательных систем, соревновательные нейронные сети и автокодировщики.
    Нейронные сети для рекомендательных систем. Разработка рекомендательной системы для магазина на основе нейронных сетей. Соревновательные нейронные сети и автокодировщики. Разработка нейронной сети, позволяющей по реакции на почтовую рассылку предсказывать вероятность целевого действия клиента.
Элементы контроля

Элементы контроля

  • неблокирующий Опроект – оценка за итоговый групповой проект
  • неблокирующий Од/з – оценка за индивидуальное выполнение всех домашних заданий.
  • неблокирующий Оауд – оценка за работу на семинарах.
  • неблокирующий Оэкз – оценка за устный экзамен.
    Экзамен проводится в устной форме по билетам в оффлайн-формате. Во время экзамена студентам запрещено использование компьютеров, телефонов, планшетов и иного оборудования. Запрещено пользоваться подсказками третьих лиц. Разрешено пользоваться рукописными конспектами. в начале экзамена студентам даётся 20 минут на подготовку. По истечении 20 минут студенты по очереди устно отвечают на вопросы своего билета. Очерёдность определяется готовностью студентов.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.1 * Оауд – оценка за работу на семинарах. + 0.25 * Од/з – оценка за индивидуальное выполнение всех домашних заданий. + 0.25 * Опроект – оценка за итоговый групповой проект + 0.4 * Оэкз – оценка за устный экзамен.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.

Рекомендуемая дополнительная литература

  • Bruce, P. C., & Bruce, A. (2017). Practical Statistics for Data Scientists : 50 Essential Concepts (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1517577
  • Python for data analysis : data wrangling with pandas, numPy, and IPhython, Mckinney, W., 2017
  • Изучаем Python : программирование игр, визуализация данных, веб - приложения, Мэтиз, Э., 2017
  • Изучаем Python, Лутц, М., 2014
  • Комбинаторика и теория вероятностей, учебное пособие, 99 с., Райгородский, А. М., 2013