• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Компьютерная лингвистика

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
8
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 2-4 модуль

Преподаватели

Программа дисциплины

Аннотация

Курс знакомит студентов с основными сведениями о компьютерной лингвистике и об автоматической обработке речи, формирует навыки предобразования, нормализации и векторизации текстов, тренирует умение строить модели. основанные на эвристиках на машинном обучении, готовит к выполнению профессиональных обязанностей в области компьютерной лингвистики.
Цель освоения дисциплины

Цель освоения дисциплины

  • познакомить студентов с основными задачами компьютерной лингвистики и автоматической обработки языка
  • познакомить студентов с современными подходами к решению задач компьютерной лингвистики
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
  • Умеют оценивать степень устойчивости сочетаний слов с помощью различных метрик; пользоваться Phraser из gensim для объединения токенов в нграммы; использовать nltk для нахождения устойчивых биграммов и триграммов
  • Умеют собирать многоязычные корпусы с помощью wikidata; применять мешок слов и мешок буквенных нграммов для расчёта близости текстов; использовать CountVectorizer из sklearn для векторизации текстов; применять LogisticRegression из sklearn для классификации; оценивать качество классификации (точность, полнота, ф-мера)
  • Умеют сравнивать различные классификаторы в sklearn с использованием кросс-валидации; находить значимые и незначимые признаки
  • Умеют определять опечатки с помощью словаря и классификатора; использовать алгоритм Норвига для генерации исправления; сравнивать различные меры редактирования (расстояние левенштейна, хэмминга и др.); оптимизировать поиск исправления с помощью векторизации
  • Умеют использовать natasha для извлечения стандартных сущностей; разрабатывать грамматики для yargy для извлечения специфических сущностей
  • Умеют различать задачу классификации и ранжирования; использовать TfidfVectorizer из sklearn для ранжирования слов по значимости; представлять текст в виде графа; рассчитывать важность слов в графе с помощью random walk и мер центральности в networkx; разрабатывать собственные метрики значимости
  • Умеют использовать неотрицательное матричное разложение (NMF) из sklearn; использовать LDA из gensim; использовать BigARTM, настраивать регуляризаторы; оценивать качество тематических моделей (интерпретируемость, перплексия, когерентность), подбирать оптимальное количество тем
  • Умеют использовать матричные разложения для построения представлений слов; обучать word2vec, fastext из gensim, различать эти алгоритмы между собой; оценивать качество векторных представления на задаче определения перефразирования
  • Умеют пользоваться wordnet; использовать алгоритм Леска для определения значения слова по контексту; обучать Adagram и определять нужное значение слова по контексту; кластеризовать контексты слов для определения количества значений слова; оценивать качество кластеризации при наличии разметки
  • Умеют реализовывать алгоритм витерби для нахождения правильных частей речи; реализовывать beam search для ускорения работы витерби
  • Умеют использовать предобученные модели для морфологической разметки; пользоваться функцией обучение на своих данных TreeTagger; использовать LSTM из keras для предсказания морфологических тэгов
  • Умеют использовать предобученные модели (UdPipe, SyntaxNet) для построения деревьев зависимости; извлекать тройки субъект-предикат-объект из графов зависимостей предложений; находить структурно близкие предложения с помощью tree edit distance
  • Умеют создавать языковые модели с помощью keras; использовать предобученные state-of-the-art модели (BERT, ELMO, GPT-2) для получения векторных представлений; дообучать (fine-tuning) предобученные модели для задач классификации
  • Умеют создавать вопросно-ответные системы на данных википедии с помощью мешка слов (DrQA); обучать нейронные вопросно-ответные модели на SQUAD
  • Умеют обучать seq2seq модели для перевода; использовать предобученные модели для текстовых аугментаций; оценивать качество машинного перевода
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, предобработка текста, нграммы, распознавание языка, анализ тональности
  • Выделение и исправление опечаток, извлечение именованных сущностей, извлечение ключевых слов, тематическое моделирование
  • Векторные представления, лексическая дезамбигуация, разметка последовательности, морфологическая дизамбигуация
  • Синтаксический парсинг, языковое моделирование, вопросно-ответные системы, машинный перевод
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
    Преподаватель оценивает самостоятельную работу студентов по выполнению домашних работ, выдаваемых на практических занятиях – при этом оценивается правильность выбора метода решения задачи в соответствии с заранее установленным критериями. Домашние работы сдаются за 2 дня до следующего занятия (до 23:59 предыдущего дня). После проверки заданий студенты получают обратную связь и оценку по своей работе по почте. Работы, которые были сданы после крайнего срока, штрафуются на три балла. Оценки за домашние задания выставляются в рабочую ведомость, перед экзаменом модуля оценки за домашние задания усредняются и выставляется единая средняя оценка по десятибалльной шкале.
  • неблокирующий Экзамен
    Экзамен пересдается в соответствии с правилами, утвержденными академсоветом ОП.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.7 * Домашние задания + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Сабиржанов Равшан Анварович. (n.d.). Компьютерная Лингвистика Как Наука Автоматической Обработки Информации. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.https%3a%2f%2fcyberleninka.ru%2farticle%2fn%2fkompyuternaya-lingvistika-kak-nauka-avtomaticheskoy-obrabotki-informatsii

Рекомендуемая дополнительная литература

  • Языкознание: От Аристотеля до компьютерной лингвистики: Научно-популярное / Алпатов В. - М.:Альпина нон-фикшн, 2018. - 253 с.: 60x90 1/16. - (Научно-популярная литература) (Переплёт) ISBN 978-5-91671-804-1 - Режим доступа: http://znanium.com/catalog/product/1003471