• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Автоматическая обработка естественного языка

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 4-й курс, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 40

Программа дисциплины

Аннотация

Курс знакомит студентов с основными сведениями об автоматической обработке речи, систематизирует знания об основных методах автоматического анализа текста и о современных задачах извлечения информации из текста, тренирует навык применения алгоритмов семантической обработки текста, формирует умение пользоваться инструментами для семантической обработки текста на русском языке.
Цель освоения дисциплины

Цель освоения дисциплины

  • овладение студентами основными методами автоматического анализа текста
  • знакомство с современными задачами извлечения информации из текста
Планируемые результаты обучения

Планируемые результаты обучения

  • владеет основными методами выделения ключевых слов к тексте
  • владеет основными методами выделения устойчивых словосочетаний, знаком с их преимуществами и недостатками
  • умеет использовать систему Natasha для написания правил по извлечению именованных сущностей
  • умеет определять семантически близкие слова
  • умеет применять методы автоматической классификации для извлечения тонального лексикона на основе большого корпуса текстов
  • умеет применять методы разрешения семантической неоднозначности
  • умеет применять методы тематического моделирования
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Квантитативные характеристики слов и использование их в автоматической обработке
  • Выделение устойчивых словосочетаний
  • Методы разрешения семантической неоднозначности
  • Тематическое моделирование
  • Определение семантической близости. Векторные модели
  • Применение методов семантической обработки к задачам извлечения информации из текста
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
    Пересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии.
  • неблокирующий Чтение статей и составление резюме
  • неблокирующий Проектная работа
    По каждому из разделов готовится один проект; оценивается разработка ТЗ для создания системы обработки текста; взаимное рецензирование и обсуждение проекта; презентации проектов; окончательная версия проекта; рейтинг при оценке качества (F-меры). При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
  • неблокирующий Экзамен
    По общим правилам пересдачи экзамена, пропущенного по уважительной причине.
  • неблокирующий тест
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    0.35 * Проектная работа + 0.25 * Чтение статей и составление резюме + 0.4 * Домашние задания
Список литературы

Список литературы

Рекомендуемая основная литература

  • Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009
  • Speech and language processing, Jurafsky, D., 2014
  • The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics
  • The handbook of computational linguistics and natural language processing, , 2013

Рекомендуемая дополнительная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.