Бакалавриат
2019/2020
Анализ неструктурированных данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Аксенов Сергей Андреевич,
Артемова Екатерина Леонидовна,
Гончарова Елизавета Федоровна,
Лапидус Анна Александровна,
Шеянова Мария Викторовна
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Настоящая учебная дисциплина посвящена вопросам автоматической обработки текстов [natural language processing], области, находящейся на стыке таких дисциплин, как машинное обучение и лингвистика. Курс состоит из двух чатсей: базовой, в ходе которых будут введены основные концепции, и продвинутой, ориентированной на индустриальные технологии и на современные научные вопросы.
Цель освоения дисциплины
- Изучение базовых задач и методов обработки и анализа текстов
- Изучение современных нейросетевых моделей для обработки и анализа текстов
- Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения
- Знать и применять базовые методы обработки и анализа текстов
- Уметь решать задачи, связанные с моделированием языка
- Уметь решать специализированные задачи на текстовых данных
- Знать этические аспекты обработки текстов
Содержание учебной дисциплины
- Введение. Статистический анализ текстовОсновные задачи обработки и анализа текстов. Актуальность обработки и анализа текстов. Краткий исторический экскурс по обработке и анализу текстов. Обзор существующих систем обработки и анализа текстов. Классификация систем обработки и анализа текстов. Описательные статистики, оцениваемые по тексту. Методы излечения ключевых слов и словосочетаний. Закон Хипса, Закон Ципфа. Токенизация на основе регулярных выражений. Обучаемая сегментация предложений.
- Векторные модели представления словВекторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Методы снижения размерности в век-торной модели документа: сингулярное разложение, латентный семантический анализ. Связь с моделями скрытых тем. Латентное размещение Дири-хле (LDA). Параметры модели. Выбор числа скрытых тем. Расширения модели LDA. Дистрибутивная семантика, векторная модель слова. Построение матрицы PPMI. Поиск близких слов по значению. Снижение размерности и факто-ризация матрицы PPMI. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec. Отрицательное сэмплирование.
- Классификация текстовЗадачи классификации текстов и предложений по теме, тональности и жанру. Метод наивного Байеса, метод максимальной энтропии. Сверточные нейронные сети. Архитектура FastText. Аугментация данных. Классификация при небольших объемах размеченных данных.
- Классификация последовательностейЗадача классификации последовательностей. Частеречная разметка, определение семантических ролей, извлечение именованных сущностей. IOB раз-метка, IOBES разметка. Условные случайные поля. Рекуррентные нейронные сети. Модели последовательностей на основе сверточных сетей и трансформеров. Переход от токенизации к BPE кодированию.
- Предобученные языковые моделиПредобученные языковые модели на основе рекуррентных нейронных сетей и трансформеров. Архитектуры ELMo, BERT, ULMFit, XLNET, GPT2 и др. GLUE оценка.
- Синтаксический анализЗадача синтаксического разбора предложений. Модель составляющих. Вероятностные контекстно-свободные грамматики. Модель зависимостей. Универсальные зависимости. Корпус. Universal Dependencies. Парсинг зависимостей. Архитектура SyntaxNet и архитектура UDPipe.
- Машинный переводСтатистический машинный перевод. Нейросетевой машинный перевод и модели класса энкодер-декодер. Механизм внимания.
- Генерация текстовКонтролируемая генерация тектов. Диалоговые системы общего назначения.
- Разметка данных, активное обучение.Системы разметки данных. Краудсорсинговые платформы. Коэффициенты согласия аннотаторов. Стратегии активного обучения.
- Вопросное-ответные системыТипология вопросно-ответных системы. Архитектуры BiDAF, QANet, DRQ&A. Машинное чтение. Задача SQUAD.
- Мультимодальные методыЗадачи, связывающие анализ изображений и анализ текстов. Распознование текстов [optical character recognition].
- Мультиязычные методыПеренос обучения между различными предметными областями. Перенос обучения с одного языка на другой.
- Обработка текстов в медицинеАнонимизация и подготовка медицинских текстов к анализу. Обзор задач, возникабщих при анализе медицинских текстов. Источники данных, онтологии, таксономии и графы знаний в медицине.
- Информационный поискСовременный поисковые системы: индексация, поиск по векторному представлению. Связь с вопросно-ответными системами и рекомендательными системами.
- Этические вопросы в обработке текстовПредвзятость в предобученных моделях и способы ее компенсации. Детектирование ложных нвоостей и пропаганды.
Элементы контроля
- Домашнее задание (ДЗ1)
- Домашнее задание (ДЗ2)
- Домашнее задание (ДЗ 3)
- Домашнее задание (ДЗ4)
- Компьютерный тест (Квизы)Квизы по итогам каждой лекции
- Проект 1 (Домашнее задание)Проект на основе SemEval
- Проект 2 (Домашнее задание)Проект на основе SemEval
- Устный экзамен
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.075 * Домашнее задание (ДЗ 3) + 0.075 * Домашнее задание (ДЗ1) + 0.075 * Домашнее задание (ДЗ2) + 0.075 * Домашнее задание (ДЗ4) + 0.12 * Компьютерный тест (Квизы) + 0.09 * Проект 1 (Домашнее задание) + 0.09 * Проект 2 (Домашнее задание) + 0.4 * Устный экзамен
Список литературы
Рекомендуемая основная литература
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
Рекомендуемая дополнительная литература
- Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157