• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Интеллектуальный анализ текстов

Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Прикладная политология)
Направление: 41.04.04. Политология
Когда читается: 2-й курс, 1 модуль
Формат изучения: с онлайн-курсом
Преподаватели: Шестаков Андрей Владимирович
Прогр. обучения: Прикладная политология
Язык: русский
Кредиты: 4
Контактные часы: 12

Программа дисциплины

Аннотация

Колоссальный рост доступной текстовой информации ускорил развитие научной области, известной как автоматическая обработка естественного языка (англ. Natural Language Processing). В рамках данного курса студенты ознакомятся с задачами, которые решает NLP как с помощью классических, так и с помощью нейросетевых методов. В частности будут разобраны задачи классификации текстов, выявления именованных сущностей, поиск дубликатов и генерация текстов. В качестве выпускного проекта студентам будет предложено разработать бота-ассистента для поиска по порталу StackOverflow. Курс основан на онлайн курсе “Natural Language Processing”, URL: https://www.coursera.org/learn/language-processing (платформа – Coursera, разработчик – ВШЭ).
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов базовых теоретических знаний и практических навыков в области автоматической обработки естественного языка.
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимание основного пайплайна обработки текстовой информации и умение применять его на практике
  • Понимание идеи языковых моделей, разработка языковой модели с помощью рекуррентной нейронной сети
  • Понимание принципов построения векторых представлений слов и текстов
  • Понимание принципов работы моделей машинного перевода
  • Понимание элементов архитектуры диалоговых систем
  • Разработка собственного классификатора текстов и алгоритма выявления тематик
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в классификацию текстов
    Изучение основных шагов в обработке текстовой информации. Основы обработки текстов на Python. Библиотека Gensim. Представление текста как “мешка слов”. TF-IDF. Разработка классификатора текстов.
  • Языковые модели и разметка последовательностей
    Применение LSTM для задачи распознавания именованных сущностей; Моделирование языка с помощью n-gram и рекуррентных нейронных сетей; Оценка качества моделей
  • Дистрибутивная семантика и тематические модели
    Модели word2vec, skipgram, CBOW, fastText и другие способы векторного представления слов; Создание поисковой системы с помощью векторного представления предложений; Обзор тематических моделей
  • Модели преобразования последовательности в последовательность
    Модели машинного перевода; Обучение нейронной сети для решения задачи преобразования последовательностей; Механизмы внимания
  • Диалоговые системы
    Архитектуры диалоговых систем; Разработка чат-бота
Элементы контроля

Элементы контроля

  • неблокирующий Оценка онлайн-курса
    Курс “Natural Language Processing” на платформе Coursera [URL: https://www.coursera.org/learn/language-processing]
  • неблокирующий Индивидуальный проект
  • неблокирующий Экзамен
    Итоговый экзамен (письменный)
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.2 * Индивидуальный проект + 0.6 * Оценка онлайн-курса + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Гудфеллоу Я., Бенджио И., Курвилль А. - Глубокое обучение - Издательство "ДМК Пресс" - 2018 - 652с. - ISBN: 978-5-97060-618-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/107901

Рекомендуемая дополнительная литература

  • Beysolow, T. (2018). Applied Natural Language Processing with Python : Implementing Machine Learning and Deep Learning Algorithms for Natural Language Processing. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892182
  • Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512