Магистратура
2021/2022




Восстановление функциональных закономерностей из эмпирических данных
Статус:
Курс по выбору (Науки о данных (Data Science))
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра Яндекс
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Михальский Анатолий Иванович
Прогр. обучения:
Науки о данных
Язык:
русский
Кредиты:
4
Контактные часы:
48
Программа дисциплины
Аннотация
Восстановление функциональных закономерностей из эмпирических данных"" рассматриваются вопросы восстановления (поиска, оценки) функциональных закономерностей по данным наблюдений. Вся наука построена на наблюдении и обобщении результатов в виде зависимостей, законов и т.д. В современном мире в качестве наблюдений выступает информация, обрабатывая которую исследователи стремятся получить знания либо о конкретных объектах (обнаружение брачных аферистов на сайтах знакомств), либо о процессах (прогноз риска развития заболевания по генетическим признакам), либо о явлениях (предсказание землетрясений). Всё это восстановление зависимости из эмпирических данных. При этом необходимо ответить на три фундаментальных вопроса: Какую зависимость восстанавливать Как это сделать Насколько хорошо получилось ""Обычные"" ответы на эти вопросы следующие: Надо восстанавливать линейные зависимости: минимальное число параметров + часто находится аналитическое решение, что гарантирует быстрые и точные вычисления. Если теория описывает явление нелинейно, то его надо линеаризовать, например прологарифмировать. Использовать метод наименьших квадратов (либо метод максимального правдоподобия) для оценки параметров линейной зависимости - модели. Считая, что данные получены в результате независимых испытаний из некоего вероятностного распределения (часто нормального) вычисляют (оценивают) доверительный интервал, покрывающий с заданной вероятностью (обычно 95%) ""истинное"" значение параметра модели. Если этот интервал ""мал"", и достаточно оснований считать, что линейная модель адекватна описываемому процессу, то задача решена хорошо. В рамках методов машинного обучения, которые расширенно трактуются как методы анализа данных, каждый из этих пунктов получил развитие. А именно: Какую зависимость восстанавливать Переменной у может быть двоичной у={0,1} - это задача классификации (распознавания образов). Переменная у может принимать любые действительные значения - это задача регрессии.
Цель освоения дисциплины
- 1) Формулировка задачи обучения как задачи минимизации среднего риска и как задачи минимизации эмпирического риска. 2) Связь между значением функционала среднего риска и функционала эмпирического риска при фиксированной зависимости (закон больших чисел) и при зависимости, принадлежащей заданному классу (теорема Гливенко-Кантелли). 3) Проблема равномерной по классу зависимостей сходимости эмпирического риска к среднему риску. 4) Построение решающего правила при нормальных внутриклассовых распределениях путём максимизация отношения правдоподобия. Линейная и нелинейная дискриминантные функции Фишера. 5) Задача регрессии, форма функционала среднего риска в задаче построения регрессионной зависимости. Различные функции потерь.
Планируемые результаты обучения
- знать статистическую постановку задачи восстановления зависимостей
- уметь интерпретировать задачи машинного обучения в терминах минимизации эмпирического риска
Содержание учебной дисциплины
- Введение в курс
- Статистическая постановка задачи восстановления зависимостей
- Обучение по эмпирическим данным. Классификация
- Обучение по эмпирическим данным. Регрессия.
- Минимизация эмпирического риска в классе линейных решающих правил
- Метод конформных предикторов
- Оценка среднего риска через эмпирический
- Равномерная сходимость частот к вероятностям
- Использование "privileged information " при обучении
- SVM и SVR
- Метод структурной минимизации риска
- Сложность по Радемахеру
- Машинное обучение и функциональный анализ
- RKHS
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль0.3 * Домашняя работа + 0.3 * Домашняя работа + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Neural Network Model of Assessment and Forecasting of Environmental Risks of Forest Fund Changes ; Нейросетевая модель оценки и прогнозирования экологического риска изменения состояния лесного фонда. (2019). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.F9332975
- Бекмурзаев, И. (2018). Поисковые алгоритмы, машинное обучение и проблемы продвижения в Интернет. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.1FF51C4C
Рекомендуемая дополнительная литература
- Теория вероятностей и математическая статистика : учебник для вузов, Колемаев, В. А., 1999