• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2022/2023

Глубинное обучение для текстовых данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Артемова Екатерина Леонидовна, Карпов Илья Андреевич, Никишина Ирина Александровна
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам. В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение базовых задач и методов обработки и анализа текстов
  • Изучение современных нейросетевых моделей для обработки и анализа текстов
  • Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать и применять базовые методы обработки и анализа текстов
  • Уметь решать задачи, связанные с моделированием языка
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Статистический анализ текстов
  • Векторные модели представления слов
  • Классификация текстов
  • Классификация последовательностей
  • Предобученные языковые модели
  • Синтаксический анализ
  • Машинный перевод
  • Генерация текстов
  • Разметка данных, активное обучение.
  • Вопросное-ответные системы
  • Мультимодальные методы
  • Мультиязычные методы
  • Обработка текстов в медицине
  • Информационный поиск
  • Этические вопросы в обработке текстов
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание (ДЗ1)
  • неблокирующий Домашнее задание (ДЗ2)
  • неблокирующий Домашнее задание (ДЗ 3)
  • неблокирующий Домашнее задание (ДЗ4)
  • неблокирующий Компьютерный тест (Квизы)
    Квизы по итогам каждой лекции
  • неблокирующий Проект 1 (Домашнее задание)
    Проект на основе SemEval
  • неблокирующий Проект 2 (Домашнее задание)
    Проект на основе SemEval
  • неблокирующий Устный экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.075 * Домашнее задание (ДЗ 3) + 0.075 * Домашнее задание (ДЗ1) + 0.09 * Проект 2 (Домашнее задание) + 0.12 * Компьютерный тест (Квизы) + 0.075 * Домашнее задание (ДЗ4) + 0.4 * Устный экзамен + 0.075 * Домашнее задание (ДЗ2) + 0.09 * Проект 1 (Домашнее задание)
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157