Бакалавриат
2019/2020
Инструменты и методы работы с большими массивами текстовой информации
Статус:
Курс по выбору (Реклама и связи с общественностью)
Направление:
42.03.01. Реклама и связи с общественностью
Кто читает:
Школа коммуникаций
Где читается:
Факультет креативных индустрий
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Алексейчук Никита Николаевич,
Гончарова Елизавета Федоровна,
Саркисян Вероника Вагановна
Язык:
русский
Кредиты:
4
Контактные часы:
48
Программа дисциплины
Аннотация
Одними из наиболее важных последствий становления цифрового общества для коммуникационных исследований сегодня является существенное увеличение объемов «цифровых следов коммуникации», т.е. массивов текстовых данных. Данный курс является продолжением и одновременно логическим завершением основного курса специализации «Инструменты и методы в коммуникационных исследованиях». В рамках этой дисциплины студенты на протяжении двух модулей научатся работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики. Уникальность курса заключается в том, что он сочетает в себе как навыки работы с инструментами и методами, освоенными студентами в рамках основной дисциплины специализации, так и новые навыки и знания из области аналитики данных, естественной обработки языка и компьютерной лингвистики. Кроме того, в рамках данной дисциплины студенты смогут обогатить свой опыт работы с текстами в рамках дискурс- и контент- анализа, методологически совершенствуя эти методы и масштабируя на большие массивы, неподдающиеся ручной обработке.
Цель освоения дисциплины
- научить студентов работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики.
Планируемые результаты обучения
- Знает основные задачи обработки и анализа текстов
- Умеет проводить предварительную обработку текстовых данных
- Умеет проводить частотный анализ текстовых данных и визуализировать их
- Умеет применять методы ML к классификации текстовых данных
- Умеет применять методы тематического моделирования
- Знает кейсы и примеры содержательных задач анализа текстов
Содержание учебной дисциплины
- Введение: содержательные задачи и методы NLPОбзор основных задач обработки и анализа текстов. Содержательные задачи и примеры кейсов использования методов анализа текстов в маркетинге, коммуникациях и PR. Инструменты для анализа текстовых данных.
- Методы предварительной обработки текстовУстройство баз данных, хранящих текстовые данные. Регулярные выражения. Лемматизация, стемминг, токенизация. Инструменты и библиотеки для предварительной обработки текстовых данных. Обзор инструментов NLTK.
- Частотный анализ текстовых данныхМодель мешка слов. Преимущества и недостатки. TF-IDF и другие расширения для стандартной модели мешка слов. N-граммы. Визуализация текстовых данных.
- Задача классификации текстовых данныхЗадача бинарной, много классовой классификации для текстов. Использование традиционных инструментов ML для классификации текстов. Обзор современных методов глубинного обучения для классификации текстов.
- Тематическое моделированиеЗадача поиска латентных тем в документах. Векторное представление текстов и его связь с тематическим моделированием. Латентное размещение Дирихле. Альтернативные подходы к тематическому моделированию. Визуализация результатов тематического моделирования и выбор числа тем.
- Прикладные коммуникационные задачи и анализ текстовСерия семинаров по содержательным задачам и кейсам применения методов анализа текстов к содержательным задачам коммуникаций. Анализ сентиментов. Методы классификации сарказма, распознавания hate speech и кибербуллинга. Мониторинг повестки дня. Задачи распознавания пропаганды. Другие кейсы.
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.7 * Индивидуальные и групповые домашние задания + 0.3 * Письменные тесты
Список литературы
Рекомендуемая основная литература
- Cardey, S. (2013). Modelling Language. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=578623
- Hardeniya, N. (2015). NLTK Essentials. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1044817
Рекомендуемая дополнительная литература
- Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512
- Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312