• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Прикладная математика и информатика»

Глубинное обучение для текстовых данных

2023/2024
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс по выбору
Когда читается:
4-й курс, 1, 2 модуль

Преподаватели

Программа дисциплины

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам. В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение базовых задач и методов обработки и анализа текстов
  • Изучение современных нейросетевых моделей для обработки и анализа текстов
  • Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать и применять базовые методы обработки и анализа текстов
  • Уметь решать задачи, связанные с моделированием языка
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Статистический анализ текстов
  • Векторные модели представления слов
  • Классификация текстов
  • Машинный перевод
  • Рекуррентные нейронные сети
  • Способы токенизации последовательностей
  • Обзор языковых моделей
  • Генеративные языковые модели
  • Трансформерные модели
  • Способы уменьшения размеров моделей
  • Распознавание сущностей, решение задач классификации последовательностей
  • Задача суммаризации
  • Мультиязыковые модели
  • Диффузионные модели для генерации текстов
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Необходимо будет реализовать и сравнить методы токенизации последовательностей, а также рекуррентную сеть для задачи классификации.
  • неблокирующий Домашнее задание 2
    Задание включает в себя реализацию генеративной модели текста и сравнение различных техник сэмплирования.
  • неблокирующий Домашнее задание 3
    Задание включает в себя реализацию больших языковых моделей для решения задачи классификации. В данном задании предусмотрены ограничения на количество параметров модели.
  • неблокирующий Контрольная работа
    Письменная работа, рассчитанная на одну пару.
  • неблокирующий Экзамен
    Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.14 * Домашнее задание 1 + 0.13 * Домашнее задание 2 + 0.13 * Домашнее задание 3 + 0.3 * Контрольная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Manning C. D., Schutze H. Foundations of statistical natural processing. – 1999. – 719 pp.

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157