• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
21
Апрель

Инструменты и методы работы с большими массивами текстовой информации

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
4-й курс, 3 модуль

Преподаватель


Кохтев Вадим Михайлович

Программа дисциплины

Аннотация

Одними из наиболее важных последствий становления цифрового общества для коммуникационных исследований сегодня является существенное увеличение объемов «цифровых следов коммуникации», т.е. массивов текстовых данных. Данный курс является продолжением и одновременно логическим завершением основного курса специализации «Инструменты и методы в коммуникационных исследованиях». В рамках этой дисциплины студенты на протяжении двух модулей научатся работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики. Уникальность курса заключается в том, что он сочетает в себе как навыки работы с инструментами и методами, освоенными студентами в рамках основной дисциплины специализации, так и новые навыки и знания из области аналитики данных, естественной обработки языка и компьютерной лингвистики. Кроме того, в рамках данной дисциплины студенты смогут обогатить свой опыт работы с текстами в рамках дискурс- и контент- анализа, методологически совершенствуя эти методы и масштабируя на большие массивы, неподдающиеся ручной обработке.
Цель освоения дисциплины

Цель освоения дисциплины

  • научить студентов работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает кейсы и примеры содержательных задач анализа текстов
  • Знает основные задачи обработки и анализа текстов
  • Умеет применять методы ML к классификации текстовых данных
  • Умеет применять методы тематического моделирования
  • Умеет проводить предварительную обработку текстовых данных
  • Умеет проводить частотный анализ текстовых данных и визуализировать их
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение: содержательные задачи и методы NLP
  • Методы предварительной обработки текстов
  • Частотный анализ текстовых данных
  • Задача классификации текстовых данных
  • Тематическое моделирование
  • Прикладные коммуникационные задачи и анализ текстов
Элементы контроля

Элементы контроля

  • неблокирующий Индивидуальные и групповые домашние задания
  • неблокирующий Письменные тесты
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль
    0.7 * Индивидуальные и групповые домашние задания + 0.3 * Письменные тесты
Список литературы

Список литературы

Рекомендуемая основная литература

  • Cardey, S. (2013). Modelling Language. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=578623
  • Hardeniya, N. (2015). NLTK Essentials. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1044817

Рекомендуемая дополнительная литература

  • Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512
  • Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312