Магистратура
2019/2020
Компьютерная лингвистика
Статус:
Курс обязательный (Компьютерная лингвистика)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Компьютерная лингвистика
Язык:
русский
Кредиты:
5
Контактные часы:
44
Программа дисциплины
Аннотация
Целями освоения дисциплины «Компьютерная лингвистика» являются знакомство студентов с актуальными задачами компьютерной лингвистики и современными технологиями их решений. Изучение дисциплины «Компьютерная лингвистика» (второй год обучения) базируется на следующих дисциплинах: - математика, математические основания компьютерной лингвистики; - программирование (язык Python); - компьютерная лингвистика-1 (основные этапы обработки текста на естественном языке); формальное представление естественного языка; функциональные модели в естественном языке. Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: - знать основные методы автоматической обработки текста (на морфологическом и синтаксическом уровне); - основные понятия теории множеств; теории вероятности и статистики; - обладать навыками программирования на языке Python.
Цель освоения дисциплины
- Целью освоения дисциплины является научить студента: - основным направлениям автоматического анализа связанного текста на уровне дискурса; - основным направлениям и технологии в современном автоматическом машинном переводе; - современным подходам к автоматическому анализу структуры дискурса; - типам постановки задачи в области извлечения тональности/оценки; - принципам создания вопросно-ответных систем, чат-ботов и систем генерации текстов; - собирать и подготавливать данные для проведения экспериментов по извлечению информации из текстов; - уметь читать и анализировать литературу, посвященную анализу текста современными методами; - определять степень и пределы применимости тех или иных методов к задачам глубинного анализа текста; - владеть библиотеками машинного обучения и глубокого обучения для решения задач обработки текстов; - владеть основными методами автоматического анализа дискурса; - владеть основными методами извлечения тональности; - владеть навыками анализа современных статей по компьютерной лингвистики. Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: - онтологии и семантические технологии, - машинный перевод, - работа над курсовыми и дипломными работами.
Планируемые результаты обучения
- Владеет проблематикой и основными понятиями машинного перевода
- Владеет современными методами создания диалоговых систем и чат-ботов, могут создать чат-бот/диалоговую систему по конкретному запросу.
- Владеет проблематикой автоматического извлечения информации из текста. Могут составить ТЗ для создания системы обработки текста.
- Владеет аппаратом теории риторических структур Манн и Томпсон, имеет представление о банках риторических структур и об автоматическом извлечении риторических структур из текста.
- Владеет аппаратом и основными методами построения сюжетных схем по текстам.
Содержание учебной дисциплины
- Актуальные проблемы машинного переводаОсновы статистического машинного перевода. Технологии глубокого обучения в машинном переводе. Методы, основанные на моноязычных корпусах.
- Современные методы создания диалоговых систем и чат-ботовТеоретические подходы к анализу диалога: парные реплики (диалоговые акты), диалоговые менеджеры, моделирование состояний диалоговой системы. Современные проблемы разработки чат-ботов.
- Применение методов семантической обработки к задачам извлечения информации из текстаПостановка задач для выполнения курсового проекта: разработка ТЗ для создания системы обработки текста (синтеза текста, машинного перевода и т.п.), использующей модули автоматической обработки текста. Актуальные задачи и методы в извлечении именованных сущностей. Извлечение иронии и сарказма. Извлечение аргументации.
- Применение методов семантической обработки к задачам извлечения информации из текста (продолжение)Постановка задач для выполнения курсового проекта: разработка ТЗ для создания системы обработки текста (синтеза текста, машинного перевода и т.п.), использующей модули автоматической обработки текста. Актуальные задачи и методы в извлечении именованных сущностей. Извлечение иронии и сарказма. Извлечение аргументации.
- Анализ дискурсаТеория риторических структур Манн-Томпсон. Набор риторических отношений. Методы автоматического распознавания риторических отношений. Банки риторических отношений.
- Методы построения сюжетных схем по текстамПостроение сюжетных схем по текстам с помощью автоматических систем обработки текста.
Элементы контроля
- домашние задания
- проектПроект подлежит пересдаче в срок не позднее 7 дней после получения неудовлетвори-тельной оценки. Тема проекта не меняется.
- экзамен