• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Медиакоммуникации»

Работа с текстами на естественном языке

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Кто читает:
Институт медиа
Статус:
Курс по выбору
Когда читается:
3-й курс, 2 модуль

Преподаватель


Староверова Екатерина Андреевна

Программа дисциплины

Аннотация

Работа с текстами на естественном языке позволяет решать целый список бизнес- и исследовательских задач, включая перевод, коррекцию ошибок, классификацию и объединение текстов, создание аннотаций и выделение важной информации из больших текстовых массивов. Программа рассчитана на студентов, которые уже имеют опыт работы с Python - умеют загружать дата-сеты, визуализировать данные. Цель программы - рассказать о методах препроцессинга и обработки данных необходимых для основных задач NLP - классификации текстов, сентимент анализ, определение топиков и так далее. Основные инструменты - библиотеки Spacy, NLTK, Gensim и другие.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить с методами препроцессинга и обработки данных необходимых для основных задач NLP.
Планируемые результаты обучения

Планируемые результаты обучения

  • Визуализирует текстовую аналитику
  • Использует библиотеку для работы с регулярными выражениями - Re
  • Классифицирует тексты с помощью разных алгоритмов
  • Получает информацию и объединяет документы
  • Работает с основными форматами данных - json и csv
  • Формулирует топики с помощью библиотеки Gensim
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Первое тема “Введение”
  • Второе занятие "Основные NLP библиотеки"
  • Третье занятие "Получение информации с помощью языковых моделей"
  • Четвертое занятие "N-граммы и визуализация тектов"
  • Пятое занятие "Векторизация и сравнение слов и текстов"
  • Шестое занятие "Основные методы выборов фичей для NLP задач "
  • Седьмое занятие "Формулирование топиков с помощью библиотеки Gensim"
  • Восьмое занятие "BERT алгоритм и сентимент анализ"
  • Девятое занятие "Классификация текстов с помощью разных алгоритмов"
  • Десятое занятие "Кластерный анализ"
  • Одиннадцетое занятие "Получение информации и объединение документов"
Элементы контроля

Элементы контроля

  • неблокирующий Посещаемость
  • неблокирующий Домашние задания
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    0.7 * Домашние задания + 0.3 * Посещаемость
Список литературы

Список литературы

Рекомендуемая основная литература

  • Гольдберг, Й. Нейросетевые методы в обработке естественного языка : руководство / Й. Гольдберг ; перевод с английского А. А. Слинкина. — Москва : ДМК Пресс, 2019. — 282 с. — ISBN 978-5-97060-754-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131704 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Маккинни, У. Python и анализ данных / У. Маккинни ; перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.