Бакалавриат
2020/2021
Компьютерная лингвистика и информационные технологии
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Статус:
Курс обязательный (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Дроздова Ксения Андреевна,
Михайлов Владислав Николаевич,
Пономарева Мария Алексеевна,
Сериков Олег Алексеевич
Язык:
русский
Кредиты:
6
Контактные часы:
82
Программа дисциплины
Аннотация
Курс знакомит студентов с рядом алгоритмов и структур данных для обработки текстов, дает представление о базовых понятиях и алгоритмах машинного обучения, формирует практические навыки применения машинного обучения в задачах обработки текстов.
Цель освоения дисциплины
- Знакомство с рядом алгоритмов и структур данных для автоматической обработки текста (NLP)
- Знакомство с базовыми понятиями и алгоритмами машинного обучения
- Формирование практических навыков применения машинного обучения в задачах NLP
Планируемые результаты обучения
- умение подготовить данные для решения задач NLP
- умение оценивать качество модели и анализировать ошибки
- умение применить модели машинного и глубокого обучения для решения задач NLP: классификации текстов, генерации текста, тегирования последовательности и извлечения информации
- умение проектировать архитектуру нейронной сети в зависимости от задачи
- знает теоретические основы информационного поиска
- знает и умеет реализовывать на Python различные методы индексации корпуса
- умеет реализовать поисковой движок на нескольких алгоритмах индексации как production проект
Содержание учебной дисциплины
- Информационный поискВведение в информационный поиск, булев поиск, обратный индекс, Okapi BM25, семантический поиск, Word2Vec, BERT, ELMo, модель выделения корня слова, основанная на RNN, логирование, добавление в поисковик.
- Предобработка данных
- Базовые понятия машинного обучения, алгоритмы машинного обучения для задач классификации, кластеризации и регрессии
- Избранные главы математики для машинного обучения
- FFN, CNN, RNN, LSTM
- Sequence-to-sequence, Sequence Tagging, Language Modeling
- Статические эмбеддинги (Word2Vec, FastText)
- Контекстуальные эмбеддинги (BERT, ELMo)
Элементы контроля
- Домашние задания (1 модуль)
- Экзамен (3 модуль)Блок “Компьютерная лингвистика” Оценка за экзамен равна оценке за соответствующий экзаменационный проект.
- Экзамен (1 модуль)Блок “Информационный поиск” Оценка за экзамен равна оценке за соответствующий экзаменационный проект.
- Тесты (1 модуль)
- Промежуточный контроль (2 модуль)Блок “Компьютерная лингвистика” Оценка за промежуточный контроль равна оценке за соответствующий проект.
- Тесты (2-3 модуль)
- Домашние задания (блок "Информационный поиск")
- Домашние задания (2-3 модуль)
Промежуточная аттестация
- Промежуточная аттестация (1 модуль)0.5 * Блок “Информационный поиск” + 0.5 * Блок “Компьютерная лингвистика”
- Промежуточная аттестация (3 модуль)0.12 * Домашние задания (1 модуль) + 0.21 * Домашние задания (2-3 модуль) + 0.105 * Домашние задания (блок "Информационный поиск") + 0.2 * Промежуточный контроль (2 модуль) + 0.03 * Тесты (1 модуль) + 0.09 * Тесты (2-3 модуль) + 0.045 * Экзамен (1 модуль) + 0.2 * Экзамен (3 модуль)
Список литературы
Рекомендуемая основная литература
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
- Speech and language processing, Jurafsky, D., 2014
- Прикладная и компьютерная лингвистика, коллективная монография, под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо, 2-е изд., 315 с., , 2017
Рекомендуемая дополнительная литература
- Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512