Бакалавриат
2021/2022
Глубинное обучение для текстовых данных
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Артемова Екатерина Леонидовна,
Лапидус Анна Александровна
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Настоящая учебная дисциплина посвящена вопросам автоматической обработки текстов [natural language processing], области, находящейся на стыке таких дисциплин, как машинное обучение и лингвистика. Курс состоит из двух чатсей: базовой, в ходе которых будут введены основные концепции, и продвинутой, ориентированной на индустриальные технологии и на современные научные вопросы.
Цель освоения дисциплины
- Изучение базовых задач и методов обработки и анализа текстов
- Изучение современных нейросетевых моделей для обработки и анализа текстов
- Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения
- Знать и применять базовые методы обработки и анализа текстов
- Знать этические аспекты обработки текстов
- Уметь решать задачи, связанные с моделированием языка
- Уметь решать специализированные задачи на текстовых данных
Содержание учебной дисциплины
- Введение. Статистический анализ текстов
- Векторные модели представления слов
- Классификация текстов
- Классификация последовательностей
- Предобученные языковые модели
- Синтаксический анализ
- Машинный перевод
- Генерация текстов
- Разметка данных, активное обучение.
- Вопросное-ответные системы
- Мультимодальные методы
- Мультиязычные методы
- Обработка текстов в медицине
- Информационный поиск
- Этические вопросы в обработке текстов
Элементы контроля
- Домашнее задание (ДЗ1)
- Домашнее задание (ДЗ2)
- Домашнее задание (ДЗ 3)
- Домашнее задание (ДЗ4)
- Компьютерный тест (Квизы)Квизы по итогам каждой лекции
- Проект 1 (Домашнее задание)Проект на основе SemEval
- Проект 2 (Домашнее задание)Проект на основе SemEval
- Устный экзамен
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль0.09 * Проект 2 (Домашнее задание) + 0.4 * Устный экзамен + 0.12 * Компьютерный тест (Квизы) + 0.075 * Домашнее задание (ДЗ1) + 0.09 * Проект 1 (Домашнее задание) + 0.075 * Домашнее задание (ДЗ 3) + 0.075 * Домашнее задание (ДЗ2) + 0.075 * Домашнее задание (ДЗ4)
Список литературы
Рекомендуемая основная литература
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
Рекомендуемая дополнительная литература
- Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157