Восстановление функциональных закономерностей из эмпирических данных

Магистратура 2021/2022

Статус: Курс по выбору (Науки о данных (Data Science))

Направление: 01.04.02. Прикладная математика и информатика

Кто читает: Базовая кафедра Яндекс

Где читается: Факультет компьютерных наук

Когда читается: 1-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Преподаватели: Михальский Анатолий Иванович

Прогр. обучения: Науки о данных

Язык: русский

Кредиты: 4

Контактные часы: 48

Дополнительные материалы в LMS Задать вопрос

Аннотация

Восстановление функциональных закономерностей из эмпирических данных"" рассматриваются вопросы восстановления (поиска, оценки) функциональных закономерностей по данным наблюдений. Вся наука построена на наблюдении и обобщении результатов в виде зависимостей, законов и т.д. В современном мире в качестве наблюдений выступает информация, обрабатывая которую исследователи стремятся получить знания либо о конкретных объектах (обнаружение брачных аферистов на сайтах знакомств), либо о процессах (прогноз риска развития заболевания по генетическим признакам), либо о явлениях (предсказание землетрясений). Всё это восстановление зависимости из эмпирических данных. При этом необходимо ответить на три фундаментальных вопроса: Какую зависимость восстанавливать Как это сделать Насколько хорошо получилось ""Обычные"" ответы на эти вопросы следующие: Надо восстанавливать линейные зависимости: минимальное число параметров + часто находится аналитическое решение, что гарантирует быстрые и точные вычисления. Если теория описывает явление нелинейно, то его надо линеаризовать, например прологарифмировать. Использовать метод наименьших квадратов (либо метод максимального правдоподобия) для оценки параметров линейной зависимости - модели. Считая, что данные получены в результате независимых испытаний из некоего вероятностного распределения (часто нормального) вычисляют (оценивают) доверительный интервал, покрывающий с заданной вероятностью (обычно 95%) ""истинное"" значение параметра модели. Если этот интервал ""мал"", и достаточно оснований считать, что линейная модель адекватна описываемому процессу, то задача решена хорошо. В рамках методов машинного обучения, которые расширенно трактуются как методы анализа данных, каждый из этих пунктов получил развитие. А именно: Какую зависимость восстанавливать Переменной у может быть двоичной у={0,1} - это задача классификации (распознавания образов). Переменная у может принимать любые действительные значения - это задача регрессии.

Цель освоения дисциплины

1) Формулировка задачи обучения как задачи минимизации среднего риска и как задачи минимизации эмпирического риска. 2) Связь между значением функционала среднего риска и функционала эмпирического риска при фиксированной зависимости (закон больших чисел) и при зависимости, принадлежащей заданному классу (теорема Гливенко-Кантелли). 3) Проблема равномерной по классу зависимостей сходимости эмпирического риска к среднему риску. 4) Построение решающего правила при нормальных внутриклассовых распределениях путём максимизация отношения правдоподобия. Линейная и нелинейная дискриминантные функции Фишера. 5) Задача регрессии, форма функционала среднего риска в задаче построения регрессионной зависимости. Различные функции потерь.

Планируемые результаты обучения

знать статистическую постановку задачи восстановления зависимостей
уметь интерпретировать задачи машинного обучения в терминах минимизации эмпирического риска