• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2023/2024

Компьютерный анализ текстов и обработка естественного языка

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус: Курс обязательный (Анализ данных для государства и общества)
Направление: 39.04.01. Социология
Когда читается: 1-й курс, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Прогр. обучения: Анализ данных для государства и общества
Язык: русский
Кредиты: 3
Контактные часы: 32

Программа дисциплины

Аннотация

Курс направлен на ознакомление студентов с основными методами анализа текстовых данных при помощи языка программирования Python. Первая часть курса посвящена проблематике анализа текстовых данных в социальных науках, основным подходам к предобработке текста и базовым техникам извлечения текстовых данных из интернета. Вторая часть курса позволит студентам овладеть современными методами машинного обучения для классификации, кластеризации и моделирования текстовых данных. По окончании курса студентам предлагается представить собственный исследовательский проект с использованием методов анализа естественного языка.
Цель освоения дисциплины

Цель освоения дисциплины

  • предлагает студентам готовые инструменты анализа текстовых данных в социальных и политических науках
  • дает общее представление о состоянии области анализа естественного языка, доминирующих подхода и методах
Планируемые результаты обучения

Планируемые результаты обучения

  • разбираться в приложениях компьютерного анализа текстов для практических и исследовательских задач
  • понимать основные этапы обработки сырого текста для последующего анализа
  • уметь анализировать тональность и субъективность социально-политических текстов
  • извлекать из текста скрытые темы (топики)
  • извлекать структурированную информацию из текстов
  • уметь обучать большие языковые модели и работать с ними
  • уметь классифицировать тексты с помощью методов машинного обучения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в Text mining и Natural language processing
  • Этапы автоматической обработки текста (NLP pipeline)
  • Анализ тональности
  • Тематическое моделирование
  • Web-scraping и получение данных из интернета
  • Методы машинного обучения в текстовом анализе
  • Извлечение информации из текста
  • Текстовые эмбеддинги
  • Языковые модели
Элементы контроля

Элементы контроля

  • неблокирующий Активность на семинарах
  • неблокирующий Представление презентации проекта исследования
  • неблокирующий Эссе с использованием методов NLP
  • неблокирующий Домашние задания
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 3 модуль
    0.1 * Активность на семинарах + 0.4 * Домашние задания + 0.2 * Представление презентации проекта исследования + 0.3 * Эссе с использованием методов NLP
Список литературы

Список литературы

Рекомендуемая основная литература

  • Bengfort, B., Bilbro, R., & Ojeda, T. (2018). Applied Text Analysis with Python : Enabling Language-Aware Data Products with Machine Learning. Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1827695
  • Elfrinkhof, A. van, Maks, I., & Kaal, B. (2014). From Text to Political Positions : Text Analysis Across Disciplines. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=761345
  • From text to political positions : text analysis across disciplines, , 2014
  • GPT-3 : the ultimate guide to building NLP products with OpenAI API, Kublik, S., 2022
  • Grimmer, J. (2010). A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Releases. Political Analysis, 1, 1.
  • Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.BC6A6457
  • Introduction to natural language processing, Eisenstein, J., 2019
  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
  • Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115
  • Pozzi F. et. al. Sentiment Analysis in Social Networks. - Morgan Kaufmann Publishers, 2016. - ЭБС Books 24x7.
  • Text analysis for the social sciences : methods for drawing statistical inferences from texts and transcripts, , 1997
  • The text mining handbook : advanced approaches in analyzing unstructured data, Feldman, R., 2009
  • Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
  • Young, L., & Soroka, S. (2012). Affective News: The Automated Coding of Sentiment in Political Texts. Political Communication, 29(2), 205–231. https://doi.org/10.1080/10584609.2012.671234
  • Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020

Рекомендуемая дополнительная литература

  • Handbook of quantifiers in natural language, , 2012
  • Using NLP to enhance behavior and learning : a handbook for teachers, Elston, T., 2009
  • Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2017). Data Mining : Practical Machine Learning Tools and Techniques (Vol. Fourth edition). Cambridge, MA: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1214611