• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2021/2022

Восстановление функциональных закономерностей из эмпирических данных

Статус: Курс по выбору (Науки о данных (Data Science))
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Михальский Анатолий Иванович
Прогр. обучения: Науки о данных
Язык: русский
Кредиты: 4
Контактные часы: 48

Программа дисциплины

Аннотация

Восстановление функциональных закономерностей из эмпирических данных"" рассматриваются вопросы восстановления (поиска, оценки) функциональных закономерностей по данным наблюдений. Вся наука построена на наблюдении и обобщении результатов в виде зависимостей, законов и т.д. В современном мире в качестве наблюдений выступает информация, обрабатывая которую исследователи стремятся получить знания либо о конкретных объектах (обнаружение брачных аферистов на сайтах знакомств), либо о процессах (прогноз риска развития заболевания по генетическим признакам), либо о явлениях (предсказание землетрясений). Всё это восстановление зависимости из эмпирических данных. При этом необходимо ответить на три фундаментальных вопроса: Какую зависимость восстанавливать Как это сделать Насколько хорошо получилось ""Обычные"" ответы на эти вопросы следующие: Надо восстанавливать линейные зависимости: минимальное число параметров + часто находится аналитическое решение, что гарантирует быстрые и точные вычисления. Если теория описывает явление нелинейно, то его надо линеаризовать, например прологарифмировать. Использовать метод наименьших квадратов (либо метод максимального правдоподобия) для оценки параметров линейной зависимости - модели. Считая, что данные получены в результате независимых испытаний из некоего вероятностного распределения (часто нормального) вычисляют (оценивают) доверительный интервал, покрывающий с заданной вероятностью (обычно 95%) ""истинное"" значение параметра модели. Если этот интервал ""мал"", и достаточно оснований считать, что линейная модель адекватна описываемому процессу, то задача решена хорошо. В рамках методов машинного обучения, которые расширенно трактуются как методы анализа данных, каждый из этих пунктов получил развитие. А именно: Какую зависимость восстанавливать Переменной у может быть двоичной у={0,1} - это задача классификации (распознавания образов). Переменная у может принимать любые действительные значения - это задача регрессии.
Цель освоения дисциплины

Цель освоения дисциплины

  • 1) Формулировка задачи обучения как задачи минимизации среднего риска и как задачи минимизации эмпирического риска. 2) Связь между значением функционала среднего риска и функционала эмпирического риска при фиксированной зависимости (закон больших чисел) и при зависимости, принадлежащей заданному классу (теорема Гливенко-Кантелли). 3) Проблема равномерной по классу зависимостей сходимости эмпирического риска к среднему риску. 4) Построение решающего правила при нормальных внутриклассовых распределениях путём максимизация отношения правдоподобия. Линейная и нелинейная дискриминантные функции Фишера. 5) Задача регрессии, форма функционала среднего риска в задаче построения регрессионной зависимости. Различные функции потерь.
Планируемые результаты обучения

Планируемые результаты обучения

  • знать статистическую постановку задачи восстановления зависимостей
  • уметь интерпретировать задачи машинного обучения в терминах минимизации эмпирического риска
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в курс
  • Статистическая постановка задачи восстановления зависимостей
  • Обучение по эмпирическим данным. Классификация
  • Обучение по эмпирическим данным. Регрессия.
  • Минимизация эмпирического риска в классе линейных решающих правил
  • Метод конформных предикторов
  • Оценка среднего риска через эмпирический
  • Равномерная сходимость частот к вероятностям
  • Использование "privileged information " при обучении
  • SVM и SVR
  • Метод структурной минимизации риска
  • Сложность по Радемахеру
  • Машинное обучение и функциональный анализ
  • RKHS
Элементы контроля

Элементы контроля

  • неблокирующий Домашняя работа
  • неблокирующий Домашняя работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    0.3 * Домашняя работа + 0.3 * Домашняя работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Neural Network Model of Assessment and Forecasting of Environmental Risks of Forest Fund Changes ; Нейросетевая модель оценки и прогнозирования экологического риска изменения состояния лесного фонда. (2019). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.F9332975
  • Бекмурзаев, И. (2018). Поисковые алгоритмы, машинное обучение и проблемы продвижения в Интернет. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.1FF51C4C

Рекомендуемая дополнительная литература

  • Теория вероятностей и математическая статистика : учебник для вузов, Колемаев, В. А., 1999

Авторы

  • Холод Мария Алексеевна
  • Трощенко Дарья Сергеевна
  • Федотов Станислав Николаевич