• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Computational Linguistics

2019/2020
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Compulsory course
When:
2 year, 1, 2 module

Instructors

Программа дисциплины

Аннотация

Целями освоения дисциплины «Компьютерная лингвистика» являются знакомство студентов с актуальными задачами компьютерной лингвистики и современными технологиями их решений. Изучение дисциплины «Компьютерная лингвистика» (второй год обучения) базируется на следующих дисциплинах: - математика, математические основания компьютерной лингвистики; - программирование (язык Python); - компьютерная лингвистика-1 (основные этапы обработки текста на естественном языке); формальное представление естественного языка; функциональные модели в естественном языке. Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: - знать основные методы автоматической обработки текста (на морфологическом и синтаксическом уровне); - основные понятия теории множеств; теории вероятности и статистики; - обладать навыками программирования на языке Python.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины является научить студента: - основным направлениям автоматического анализа связанного текста на уровне дискурса; - основным направлениям и технологии в современном автоматическом машинном переводе; - современным подходам к автоматическому анализу структуры дискурса; - типам постановки задачи в области извлечения тональности/оценки; - принципам создания вопросно-ответных систем, чат-ботов и систем генерации текстов; - собирать и подготавливать данные для проведения экспериментов по извлечению информации из текстов; - уметь читать и анализировать литературу, посвященную анализу текста современными методами; - определять степень и пределы применимости тех или иных методов к задачам глубинного анализа текста; - владеть библиотеками машинного обучения и глубокого обучения для решения задач обработки текстов; - владеть основными методами автоматического анализа дискурса; - владеть основными методами извлечения тональности; - владеть навыками анализа современных статей по компьютерной лингвистики. Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: - онтологии и семантические технологии, - машинный перевод, - работа над курсовыми и дипломными работами.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет проблематикой и основными понятиями машинного перевода
  • Владеет современными методами создания диалоговых систем и чат-ботов, могут создать чат-бот/диалоговую систему по конкретному запросу.
  • Владеет проблематикой автоматического извлечения информации из текста. Могут составить ТЗ для создания системы обработки текста.
  • Владеет аппаратом теории риторических структур Манн и Томпсон, имеет представление о банках риторических структур и об автоматическом извлечении риторических структур из текста.
  • Владеет аппаратом и основными методами построения сюжетных схем по текстам.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Актуальные проблемы машинного перевода
    Основы статистического машинного перевода. Технологии глубокого обучения в машинном переводе. Методы, основанные на моноязычных корпусах.
  • Современные методы создания диалоговых систем и чат-ботов
    Теоретические подходы к анализу диалога: парные реплики (диалоговые акты), диалоговые менеджеры, моделирование состояний диалоговой системы. Современные проблемы разработки чат-ботов.
  • Применение методов семантической обработки к задачам извлечения информации из текста
    Постановка задач для выполнения курсового проекта: разработка ТЗ для создания системы обработки текста (синтеза текста, машинного перевода и т.п.), использующей модули автоматической обработки текста. Актуальные задачи и методы в извлечении именованных сущностей. Извлечение иронии и сарказма. Извлечение аргументации.
  • Применение методов семантической обработки к задачам извлечения информации из текста (продолжение)
    Постановка задач для выполнения курсового проекта: разработка ТЗ для создания системы обработки текста (синтеза текста, машинного перевода и т.п.), использующей модули автоматической обработки текста. Актуальные задачи и методы в извлечении именованных сущностей. Извлечение иронии и сарказма. Извлечение аргументации.
  • Анализ дискурса
    Теория риторических структур Манн-Томпсон. Набор риторических отношений. Методы автоматического распознавания риторических отношений. Банки риторических отношений.
  • Методы построения сюжетных схем по текстам
    Построение сюжетных схем по текстам с помощью автоматических систем обработки текста.
Элементы контроля

Элементы контроля

  • неблокирующий домашние задания
  • неблокирующий проект
    Проект подлежит пересдаче в срок не позднее 7 дней после получения неудовлетвори-тельной оценки. Тема проекта не меняется.
  • неблокирующий экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.35 * домашние задания + 0.4 * проект + 0.25 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Семантика : учебник для вузов, Кронгауз, М. А., 2005

Рекомендуемая дополнительная литература

  • Грамматическая семантика : русский язык в типологической перспективе, Князев, Ю. П., 2007