Магистратура
2020/2021
Машинное обучение
Статус:
Курс обязательный (Компьютерная лингвистика)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Компьютерная лингвистика
Язык:
русский
Кредиты:
5
Контактные часы:
44
Программа дисциплины
Аннотация
Курс знакомит студентов с основами машинного обучения, систематизирует знания о стандартных библиотеках, дает представление о классических, нейронных моделях, об ансамблях моделей, тренирует навык правильной формулировки задачи модели и правильной оценки качества модели.
Цель освоения дисциплины
- познакомить студентов с основными задачами и методами машинного обучения
- научить применять машинное обучения для решения задач автоматической обработки текстов
Планируемые результаты обучения
- воспроизводит и инретпретирует основные термины и понятия, используемые в дальнейшем при освоении курса
- обучает модели бинарной и многоклассовой классификации
- анализирует преимущества и недостатки разных алгоритмов классификации
- отличает accuracy от precision и precision от recall
- различает макро и микро усреднение
- обучает регрессионные модели
- выбирает и интерпретирует метрики
- разбивает выборку на обучающую и тестовую
- разбивает выборку на фолды и производит кросс-валидацию
- учитывает сбалансированность классов или распределения при разбиении, определяет переобучение
- обучает случайный лес, градиентный бустинг, пользовуется xgboost, lightgbm и catboost, применяет стекинг
- анализирует преимущества и недостатки разных алгоритмов кластеризации, подбирает оптимальное количество классов
- настраивает параметры кластеризации, оценивает качество кластеризации
- обучает ранжирующие модели, оценивать результаты ранжирования
- обучает нейронные классификаторы с использованием слоев Embedding, Dense в keras, выбирает нужную функцию потерь и оптимизатор
- подбирает параметры (размер батча, количество слоев, размерность эмбедингов)
- обучает нейронные классификаторы с использованием сверточных слоев в keras, подбирает параметры в сверточных слоях
- использует слой DropOut для регуляризации, использует предобученные модели для получения представлений картинок
- обучает нейронные классификаторы с использованием рекуррентных слоев в keras (gru, lstm), обучает seq2seq модели, использует предобученные векторные представления
- использует предобученные модели для получения контекстных векторных представлений
Содержание учебной дисциплины
- Введение
- Классификация
- Регрессия
- Валидация
- Ансамбли
- Кластеризация
- Ранжирование
- Нейронные сети (keras)
- Нейронные сети (cnn)
- Нейронные сети (rnn)
Элементы контроля
- Домашние заданияДомашние работы сдаются до дня следующего занятия (до 23:59 предыдущего дня). Если у преподавателя получается проверить все работы к занятию, то они разбираются в начале занятия. В любом случае, студенты получают обратную связь и оценку по своей работе по почте. Работы, которые были сданы после крайнего срока, штрафуются на три балла. Оценки за домашние задания выставляются в рабочую ведомость, перед экзаменом модуля оценки за домашние задания усредняются и выставляется итоговая оценка за домашние задания по десятибалльной шкале Одз. Домашние задания пересдаются в срок не позднее, чем за неделю до начала сессии. Такие работы штрафуются на три балла.
- ПроектНа итоговом контроле студент должен продемонстрировать владение основными навыками из пройденных тем дисциплины. Итоговый контроль проводится в форме индивидуального проекта. Проект подразумевает самостоятельное решение студентом какой-то практической задачи с помощью машинного обучения от начала (подготовка данных) и до конца (оценка качества и анализ ошибок, выбор лучшего метода). Студент может использовать как уже существующие данные, так и собрать всё самостоятельно. Темы должны быть заранее (не менее 3 недель до сдачи) согласованы с преподавателем. Критерии оценки для каждого проекта устанавливаются отдельно по договорённости между студентом и преподавателем. Проект сдаётся письменно. Оценка за проект выставляется по десятибалльной шкале. Пересдается о общим правилам пересдачи экзамена, пропущенного по уважительной причине.
Список литературы
Рекомендуемая основная литература
- Федоров Д. Ю. - ПРОГРАММИРОВАНИЕ НА ЯЗЫКЕ ВЫСОКОГО УРОВНЯ PYTHON 2-е изд. Учебное пособие для СПО - М.:Издательство Юрайт - 2019 - 161с. - ISBN: 978-5-534-11961-9 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/programmirovanie-na-yazyke-vysokogo-urovnya-python-446505
Рекомендуемая дополнительная литература
- Лучано Рамальо - Python. К вершинам мастерства - Издательство "ДМК Пресс" - 2016 - 768с. - ISBN: 978-5-97060-384-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/93273