Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Кто читает:: Департамент больших данных и информационного поиска

Статус:: Курс обязательный

Когда читается:: 1-й курс, 4 модуль

Преподаватель

Паточенко Евгений Анатольевич

Дополнительные материалы в LMS Задать вопрос

Аннотация

Курс направлен на знакомство с концепциями машинного обучения, алгоритмами и инструментами для их практического применения. В рамках курса изучаются базовые алгоритмы регрессии, классификации, кластеризации, методы снижения размерности, способы подбора метрик, а также способы оптимизации моделей.

Цель освоения дисциплины

Подготовка студентов к дальнейшему изучению продвинутых курсов и применению полученных компетенций в профессиональной деятельности.

Планируемые результаты обучения

Получение навыка по исследованию датасета и предобработке данных для дальнейшего моделирования.
После изучения раздела о линейной регрессии, студенты должны понимать основные принципы её работы, включая использование метода наименьших квадратов и градиентного спуска для нахождения коэффициентов.
Научатся реализовывать линейную регрессию с применением стохастического градиентного спуска, а также полиномиальную регрессию для моделирования нелинейных зависимостей.
Смогут применять методы регуляризации (Lasso и Ridge) для улучшения обобщающей способности модели и использования различных метрик (MSE, RMSE, R², MAE, MAPE) для оценки её качества.
Освоят реализацию линейной регрессии в библиотеке Scikit-learn, включая визуализацию результатов и анализ эффективности модели в реальных задачах.
Студенты должны овладеть пониманием различных типов классификации, включая бинарную, мультиклассовую и мульти-таргет классификацию.
Будут знать, как применять регуляризацию в логистической регрессии для улучшения обобщающей способности модели, а также освоят методы борьбы с дисбалансом классов, такие как SMOTE, undersampling и oversampling.
Научатся оценивать качество модели классификации с помощью различных метрик, таких как Accuracy, Precision, Recall, ROC-AUC и F1-score, и смогут применять их для анализа эффективности моделей в реальных задачах классификации.
После изучения основ работы с решающими деревьями, студенты должны овладеть ключевыми понятиями, такими как узел, лист, глубина, корень и разбиение дерева, а также понимать критерии разбиения, включая Gini impurity, Entropy для классификации и MSE для регрессии.
Научатся подбирать гиперпараметры решающих деревьев для оптимизации их работы и смогут эффективно работать с проблемами недообучения и переобучения, используя различные методы настройки и ограничения модели для повышения её обобщающей способности.
После изучения методов извлечения признаков и отбора признаков, студенты должны овладеть техникой понижения размерности, включая методы отбора признаков и снижения признакового пространства.
Освоят различные методы отбора признаков, такие как Filter, Wrapper и Embedded, а также научатся применять продвинутые виды кросс-валидации, включая Grid Search и Random Search для оптимизации моделей.
Познакомятся с концепцией AutoML, что позволит им автоматизировать процесс выбора модели и гиперпараметров для повышения эффективности и точности машинного обучения.
После изучения ансамблевых методов, студенты должны понимать, что такое ансамбли и почему они часто показывают лучшие результаты, чем одиночные деревья.
Освоят принцип работы бэггинга, включая алгоритм случайного леса и бутстрап-выборку, а также научатся подбирать гиперпараметры для улучшения производительности модели.
Будут знакомы с бустингом, его алгоритмами, такими как AdaBoost, GradientBoost, XGBoost, LGBM и CatBoost, а также методом стекинга.
Смогут оценивать преимущества и недостатки ансамблей, понимать, когда их использование не оправдано, и освоят автоматизацию подбора гиперпараметров с помощью Optuna.

Содержание учебной дисциплины

Основы машинного обучения
Линейная регрессия
Классификация методом логистической регрессии
Решающие деревья.
Работа над улучшением качества предсказаний моделей
Ансамблевые методы

Элементы контроля

ДЗ1
ДЗ2
Онлайн-курс
Контрольная работа
Экзамен

Промежуточная аттестация

2025/2026 4th module
0.2 * Онлайн_курс + 0.15 * ДЗ_1 + 0.15 * ДЗ_2 + 0.2 * Контрольная_работа + 0.3 * Экзамен Оценка за ДЗ рассчитывается как среднее арифметическое за все ДЗ

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы
Паточенко Евгений Анатольевич

Магистерская программа «Аналитика больших данных»

Введение в машинное обучение

Преподаватель

Программа дисциплины