• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2022/2023

Автоматическая обработка естественного языка

Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 4-й курс, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 36

Программа дисциплины

Аннотация

Курс знакомит студентов с основными сведениями об автоматической обработке речи, систематизирует знания об основных методах автоматического анализа текста и о современных задачах извлечения информации из текста, тренирует навык применения алгоритмов семантической обработки текста, формирует умение пользоваться инструментами для семантической обработки текста на русском языке.
Цель освоения дисциплины

Цель освоения дисциплины

  • овладение студентами основными методами автоматического анализа текста
  • знакомство с современными задачами извлечения информации из текста
Планируемые результаты обучения

Планируемые результаты обучения

  • владеет основными методами выделения ключевых слов к тексте
  • владеет основными методами выделения устойчивых словосочетаний, знаком с их преимуществами и недостатками
  • умеет использовать систему Natasha для написания правил по извлечению именованных сущностей
  • умеет определять семантически близкие слова
  • умеет применять методы автоматической классификации для извлечения тонального лексикона на основе большого корпуса текстов
  • умеет применять методы разрешения семантической неоднозначности
  • умеет применять методы тематического моделирования
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Квантитативные характеристики слов и использование их в автоматической обработке
  • Выделение устойчивых словосочетаний
  • Методы разрешения семантической неоднозначности
  • Тематическое моделирование
  • Определение семантической близости. Векторные модели
  • Применение методов семантической обработки к задачам извлечения информации из текста
Элементы контроля

Элементы контроля

  • неблокирующий домашние задания
    Оценка по домашним заданиям вычисляется как среднее по всем домашним задания. Сдача задания после дедлайна рассчитывается как 0.7 от полной оценки за выполненное задание. Возможна досдача и пересдача домашних заданий в конце модуля. Оценка при этом рассчитывается как 0.3 от полной оценки за выполненное задание. При пересдаче необходимо исправить недочеты в домашних заданиях, выполнить невыполненные в течение модуля задания.
  • неблокирующий экзамен
  • неблокирующий проектное задание
    В течение недели после начала работы по окончании пропуска, но не позднее 10 дней до сессии, если преподавателем не предложено иное. При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
  • неблокирующий мини-тесты
  • неблокирующий домашние задания
  • неблокирующий квизы
  • неблокирующий проектное задание
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 1 модуль
    0.25 * экзамен + 0.15 * мини-тесты + 0.3 * проектное задание + 0.3 * домашние задания
  • 2022/2023 учебный год 2 модуль
    0.35 * проектное задание + 0.4 * домашние задания + 0.25 * квизы
Список литературы

Список литературы

Рекомендуемая основная литература

  • Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009
  • Speech and language processing, Jurafsky, D., 2014
  • The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics
  • The handbook of computational linguistics and natural language processing, , 2013

Рекомендуемая дополнительная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.