• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Recovery Dependencies Using Empirical Data

2019/2020
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Course type:
Elective course
When:
1 year, 1, 2 module

Программа дисциплины

Аннотация

Восстановление функциональных закономерностей из эмпирических данных"" рассматриваются вопросы восстановления (поиска, оценки) функциональных закономерностей по данным наблюдений. Вся наука построена на наблюдении и обобщении результатов в виде зависимостей, законов и т.д. В современном мире в качестве наблюдений выступает информация, обрабатывая которую исследователи стремятся получить знания либо о конкретных объектах (обнаружение брачных аферистов на сайтах знакомств), либо о процессах (прогноз риска развития заболевания по генетическим признакам), либо о явлениях (предсказание землетрясений). Всё это восстановление зависимости из эмпирических данных. При этом необходимо ответить на три фундаментальных вопроса: Какую зависимость восстанавливать Как это сделать Насколько хорошо получилось ""Обычные"" ответы на эти вопросы следующие: Надо восстанавливать линейные зависимости: минимальное число параметров + часто находится аналитическое решение, что гарантирует быстрые и точные вычисления. Если теория описывает явление нелинейно, то его надо линеаризовать, например прологарифмировать. Использовать метод наименьших квадратов (либо метод максимального правдоподобия) для оценки параметров линейной зависимости - модели. Считая, что данные получены в результате независимых испытаний из некоего вероятностного распределения (часто нормального) вычисляют (оценивают) доверительный интервал, покрывающий с заданной вероятностью (обычно 95%) ""истинное"" значение параметра модели. Если этот интервал ""мал"", и достаточно оснований считать, что линейная модель адекватна описываемому процессу, то задача решена хорошо. В рамках методов машинного обучения, которые расширенно трактуются как методы анализа данных, каждый из этих пунктов получил развитие. А именно: Какую зависимость восстанавливать Переменной у может быть двоичной у={0,1} - это задача классификации (распознавания образов). Переменная у может принимать любые действительные значения - это задача регрессии.
Цель освоения дисциплины

Цель освоения дисциплины

  • 1) Формулировка задачи обучения как задачи минимизации среднего риска и как задачи минимизации эмпирического риска. 2) Связь между значением функционала среднего риска и функционала эмпирического риска при фиксированной зависимости (закон больших чисел) и при зависимости, принадлежащей заданному классу (теорема Гливенко-Кантелли). 3) Проблема равномерной по классу зависимостей сходимости эмпирического риска к среднему риску. 4) Построение решающего правила при нормальных внутриклассовых распределениях путём максимизация отношения правдоподобия. Линейная и нелинейная дискриминантные функции Фишера. 5) Задача регрессии, форма функционала среднего риска в задаче построения регрессионной зависимости. Различные функции потерь.
Результаты освоения дисциплины

Результаты освоения дисциплины

  • уметь интерпретировать задачи машинного обучения в терминах минимизации эмпирического риска
  • знать статистическую постановку задачи восстановления зависимостей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в курс
    "Какие зависимости восстанавливать? Как восстанавливать зависимости по эмпирическим данным? Насколько хорошо мы восстановили зависимость используя имеющиеся эмпирические данные? Задача регрессии. Задача классификации. Задача восстановления плотности распределения вероятности. Что общего? Гальтон, Фишер, Розенблатт, Парзен, Вапник, Червоненкис."
  • Статистическая постановка задачи восстановления зависимостей
    1) Формулировка задачи обучения как задачи минимизации среднего риска и как задачи минимизации эмпирического риска. 2) Связь между значением функционала среднего риска и функционала эмпирического риска при фиксированной зависимости (закон больших чисел) и при зависимости, принадлежащей заданному классу (теорема Гливенко-Кантелли). 3) Проблема равномерной по классу зависимостей сходимости эмпирического риска к среднему риску. 4) Построение решающего правила при нормальных внутриклассовых распределениях путём максимизация отношения правдоподобия. Линейная и нелинейная дискриминантные функции Фишера. 5) Задача регрессии, форма функционала среднего риска в задаче построения регрессионной зависимости. Различные функции потерь.
  • Обучение по эмпирическим данным. Классификация
    "1) Следы минимизации эмпирического риска в математической статистике. Восстановление нормального распределения по эмпирическим данным. Проблема точности оценки параметров распределения по эмпирическим данным/ 2) Метод наивного байеса. 3) Метод потенциальных функций."
  • Обучение по эмпирическим данным. Регрессия.
    "1) Следы минимизации эмпирического риска в математической статистике. МНК как частный случай ОМП. 2) Гребневая регрессия и LASSO - МНК в байесовской постановке."
  • Минимизация эмпирического риска в классе линейных решающих правил
    1) Почему линейные решающие правила. 2) Персептрон. Теорема Новикова. 3) Потенциальные функции. 4) Оптимальная разделяющая гиперплоскость. Обобщенный портрет. 5) Двойственная задача.
  • Метод конформных предикторов
    1) Свойства воспроизводящих ядер. 2) Конструирование ядра по свойствам пространства. 3) Трансдуктивный вывод и конформные предикторы. Поддержка программы чтения с экрана включена. 1) Свойства воспроизводящих ядер. 2) Конструирование ядра по свойствам пространства. 3) Трансдуктивный вывод и конформные предикторы.
  • Оценка среднего риска через эмпирический
    "1) Оценка достигнутого качества обучения (величины среднего риска). 2) Теоремы о равномерной оценке вероятности ошибочной классификации по доле ошибок на обучающей выборке (алгоритмы с памятью). 3) VC размерность."
  • Равномерная сходимость частот к вероятностям
    1) Теория равномерной сходимости частот к вероятностям. 2) Достаточные условия равномерной сходимости частот к вероятностям. 3) Необходимые условия равномерной сходимости частот к вероятностям.
  • Использование "privileged information " при обучении
    "1) Роль учителя в обучении. 2) SVM с предсказателем."
  • SVM и SVR
    "1) Опорные векторы. 2) Классификация на опорных векторах. 3) Регрессия на опорных векторах."
  • Метод структурной минимизации риска
    "1) Достаточные условия равномерной сходимости средних к математическим ожиданиям. 2) Необходимые условия равномерной сходимости средних к математическим ожиданиям. 3) Выбор модели методом структурной минимизации риска."
  • Сложность по Радемахеру
    "1) Сложность по Радемахеру. 2) Методы выбора сложности модели"
  • Машинное обучение и функциональный анализ
    "1) Основные понятия и определения. 2) Функционалы и операторы. 3) Прямые и обратные задачи. Некорректные задачи и метод регуляризации."
  • RKHS
    1) Определение. 2) Свойства. 3) Обобщённая теорема представления.
Элементы контроля

Элементы контроля

  • неблокирующий Домашняя работа
  • неблокирующий Домашняя работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.3 * Домашняя работа + 0.3 * Домашняя работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Neural Network Model of Assessment and Forecasting of Environmental Risks of Forest Fund Changes ; Нейросетевая модель оценки и прогнозирования экологического риска изменения состояния лесного фонда. (2019). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.F9332975
  • Бекмурзаев, И. (2018). Поисковые алгоритмы, машинное обучение и проблемы продвижения в Интернет. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.1FF51C4C

Рекомендуемая дополнительная литература

  • Теория вероятностей и математическая статистика : учебник для вузов, Колемаев В. А., Калинина В. Н., 1999