Магистратура
2019/2020
Интеллектуальный анализ текстов
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Прикладная политология)
Направление:
41.04.04. Политология
Где читается:
Факультет социальных наук
Когда читается:
1-й курс, 4 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Шестаков Андрей Владимирович
Прогр. обучения:
Прикладная политология
Язык:
русский
Кредиты:
4
Контактные часы:
12
Программа дисциплины
Аннотация
Колоссальный рост доступной текстовой информации ускорил развитие научной области, известной как автоматическая обработка естественного языка (англ. Natural Language Processing). В рамках данного курса студенты ознакомятся с задачами, которые решает NLP как с помощью классических, так и с помощью нейросетевых методов. В частности будут разобраны задачи классификации текстов, выявления именованных сущностей, поиск дубликатов и генерация текстов. В качестве выпускного проекта студентам будет предложено разработать бота-ассистента для поиска по порталу StackOverflow. Курс основан на онлайн курсе “Natural Language Processing”, URL: https://www.coursera.org/learn/language-processing (платформа – Coursera, разработчик – ВШЭ).
Цель освоения дисциплины
- Формирование у студентов базовых теоретических знаний и практических навыков в области автоматической обработки естественного языка.
Планируемые результаты обучения
- Понимание основного пайплайна обработки текстовой информации и умение применять его на практике
- Понимание идеи языковых моделей, разработка языковой модели с помощью рекуррентной нейронной сети
- Понимание принципов построения векторых представлений слов и текстов
- Понимание принципов работы моделей машинного перевода
- Понимание элементов архитектуры диалоговых систем
- Разработка собственного классификатора текстов и алгоритма выявления тематик
Содержание учебной дисциплины
- Введение в классификацию текстовИзучение основных шагов в обработке текстовой информации. Основы обработки текстов на Python. Библиотека Gensim. Представление текста как “мешка слов”. TF-IDF. Разработка классификатора текстов.
- Языковые модели и разметка последовательностейПрименение LSTM для задачи распознавания именованных сущностей; Моделирование языка с помощью n-gram и рекуррентных нейронных сетей; Оценка качества моделей
- Дистрибутивная семантика и тематические моделиМодели word2vec, skipgram, CBOW, fastText и другие способы векторного представления слов; Создание поисковой системы с помощью векторного представления предложений; Обзор тематических моделей
- Модели преобразования последовательности в последовательностьМодели машинного перевода; Обучение нейронной сети для решения задачи преобразования последовательностей; Механизмы внимания
- Диалоговые системыАрхитектуры диалоговых систем; Разработка чат-бота
Элементы контроля
- Оценка онлайн-курсаКурс “Natural Language Processing” на платформе Coursera [URL: https://www.coursera.org/learn/language-processing]
- Индивидуальный проект
- ЭкзаменЭкзамен проводится в письменной форме. Экзамен проводится на платформе Zoom (https://zoom.us/). К экзамену необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка Zoom. Для участия в экзамене студент обязан: явиться на экзамен согласно точному расписанию, включить камеру. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи 5 минут (не более 2 раз за попытку). Долговременным нарушением связи во время экзамена считается нарушение более 5 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Пересдача проводится в устном формате по договоренности с преподавателем.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.2 * Индивидуальный проект + 0.6 * Оценка онлайн-курса + 0.2 * Экзамен
Список литературы
Рекомендуемая основная литература
- Гудфеллоу Я., Бенджио И., Курвилль А. - Глубокое обучение - Издательство "ДМК Пресс" - 2018 - 652с. - ISBN: 978-5-97060-618-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/107901
Рекомендуемая дополнительная литература
- Beysolow, T. (2018). Applied Natural Language Processing with Python : Implementing Machine Learning and Deep Learning Algorithms for Natural Language Processing. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892182
- Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512