• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2019/2020

Инструменты и методы работы с большими массивами текстовой информации

Статус: Курс по выбору (Реклама и связи с общественностью)
Направление: 42.03.01. Реклама и связи с общественностью
Когда читается: 4-й курс, 3 модуль
Формат изучения: Full time
Преподаватели: Алексейчук Никита Николаевич, Гончарова Елизавета Федоровна, Саркисян Вероника Вагановна
Язык: русский
Кредиты: 4

Программа дисциплины

Аннотация

Одними из наиболее важных последствий становления цифрового общества для коммуникационных исследований сегодня является существенное увеличение объемов «цифровых следов коммуникации», т.е. массивов текстовых данных. Данный курс является продолжением и одновременно логическим завершением основного курса специализации «Инструменты и методы в коммуникационных исследованиях». В рамках этой дисциплины студенты на протяжении двух модулей научатся работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики. Уникальность курса заключается в том, что он сочетает в себе как навыки работы с инструментами и методами, освоенными студентами в рамках основной дисциплины специализации, так и новые навыки и знания из области аналитики данных, естественной обработки языка и компьютерной лингвистики. Кроме того, в рамках данной дисциплины студенты смогут обогатить свой опыт работы с текстами в рамках дискурс- и контент- анализа, методологически совершенствуя эти методы и масштабируя на большие массивы, неподдающиеся ручной обработке.
Цель освоения дисциплины

Цель освоения дисциплины

  • научить студентов работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные задачи обработки и анализа текстов
  • Умеет проводить предварительную обработку текстовых данных
  • Умеет проводить частотный анализ текстовых данных и визуализировать их
  • Умеет применять методы ML к классификации текстовых данных
  • Умеет применять методы тематического моделирования
  • Знает кейсы и примеры содержательных задач анализа текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение: содержательные задачи и методы NLP
    Обзор основных задач обработки и анализа текстов. Содержательные задачи и примеры кейсов использования методов анализа текстов в маркетинге, коммуникациях и PR. Инструменты для анализа текстовых данных.
  • Методы предварительной обработки текстов
    Устройство баз данных, хранящих текстовые данные. Регулярные выражения. Лемматизация, стемминг, токенизация. Инструменты и библиотеки для предварительной обработки текстовых данных. Обзор инструментов NLTK.
  • Частотный анализ текстовых данных
    Модель мешка слов. Преимущества и недостатки. TF-IDF и другие расширения для стандартной модели мешка слов. N-граммы. Визуализация текстовых данных.
  • Задача классификации текстовых данных
    Задача бинарной, много классовой классификации для текстов. Использование традиционных инструментов ML для классификации текстов. Обзор современных методов глубинного обучения для классификации текстов.
  • Тематическое моделирование
    Задача поиска латентных тем в документах. Векторное представление текстов и его связь с тематическим моделированием. Латентное размещение Дирихле. Альтернативные подходы к тематическому моделированию. Визуализация результатов тематического моделирования и выбор числа тем.
  • Прикладные коммуникационные задачи и анализ текстов
    Серия семинаров по содержательным задачам и кейсам применения методов анализа текстов к содержательным задачам коммуникаций. Анализ сентиментов. Методы классификации сарказма, распознавания hate speech и кибербуллинга. Мониторинг повестки дня. Задачи распознавания пропаганды. Другие кейсы.
Элементы контроля

Элементы контроля

  • неблокирующий Индивидуальные и групповые домашние задания
  • неблокирующий Письменные тесты
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.7 * Индивидуальные и групповые домашние задания + 0.3 * Письменные тесты
Список литературы

Список литературы

Рекомендуемая основная литература

  • Cardey, S. (2013). Modelling Language. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=578623
  • Hardeniya, N. (2015). NLTK Essentials. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1044817

Рекомендуемая дополнительная литература

  • Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512
  • Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312