Бакалавриат
2023/2024
Современные методы текстового анализа
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Востоковедение)
Направление:
58.03.01. Востоковедение и африканистика
Кто читает:
Школа лингвистики
Где читается:
Санкт-Петербургская школа социальных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Старченко Алексей Миронович
Язык:
русский
Кредиты:
3
Контактные часы:
28
Программа дисциплины
Аннотация
Курс «Современные методы текстового анализа» направлен на формирование знаний, умений и компетенций в области текстового анализа источников различного содержания. Задачи курса: изучить методологические и методические аспекты работы с документами в формате электронного текста; уметь создавать электронный текст как информационный ресурс и визуализировать его в различных форматах; изучить элементы гипертекста и его возможности для работы и представления текстовых данных; изучить методы, технологии и программное обеспечение для компьютеризированного анализа текстовых документов. В рамках курса так же предполагается знакомство с корпусами, их анализ, оценка и использование в собственных исследованиях.
Пререквизит - владение одним из восточных языков на уровне не ниже intermediate.
Цель освоения дисциплины
- Освоение ряда инструментов компьютерной лингвистики и цифровых методов в гуманитарных науках, которые могут быть использованы для анализа текста в языковых, культурологических и политологических исследованиях
- Отработка практических навыков текстового анализа с использованием языка программирования Python
Планируемые результаты обучения
- Имеет представления об основных направлениях в компьютерном анализе текстов
- Может назвать основные сферы практического применения инструментов компьютерной лингвистики
- Может назвать и проиллюстрировать примерами исследовательских вопросов основные направления лингвистики
- Умеет дать определение корпуса в лингвистике
- Может перечислить или умеет найти основные корпуса своего языка на программе Востоковедение
- Может перечислить или умеет найти основные корпуса русского языка
- Может перечислить основные типы корпусов и сформулировать различия между ними
- Умеет составлять запросы для поиска в корпусе
- Умеет при составлении поискового запроса задавать условия с опорой на разметку и мета-разметку
- Умеет работать с выдачей при поиске в корпусе, умеет экспортировать её для дальнейшей обработки
- Умеет перечислить основные частотностные характеристики текста
- Умеет создать частотный список для текста или коллекции текстов
- Умеет проанализировать частотный список
- Может определить основные типы графиков
- Может выбрать визуальную репрезентацию для данных различной структуры
- Может построить графики разных типов с помощью языка Python
- Может дать определение основным статистическим метрикам
- Может сформулировать различие между средним арифметическим и медианой
- Может посчитать основные статистические метрики
- Может выбрать статистический инструмент, подходящий для проверки гипотезы
- Может применить основные статистические тесты: t-test, хи-квадрат
- Имеет представление о регрессии в статистике
- Может назвать и объяснить основные инструменты компьютерной лингвистики: лемматизация, токенизация, морфологический и синтаксический анализ, определение тональности текста, выявление именованных сущностей
- Умеет использовать инструменты компьютерной лингвистики: лемматизация, токенизация, морфологический и синтаксический анализ, определение тональности текста, выявление именованных сущностей
- Может создать и использовать базу данных для хранения результатов обработки текста
- Имеет представление об использовании методов машинного обучения для анализа текстов
Содержание учебной дисциплины
- Введение
- Методы корпусной лингвистики
- Визуализация частотных характеристик текста
- Статистические инструменты анализа текста
- Основные инструменты компьютерной лингвистики
Список литературы
Рекомендуемая основная литература
- Crompton, C., Lane, R. J., & Siemens, R. G. (2016). Doing Digital Humanities : Practice, Training, Research. London: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1360431
- McEnery, T., & Hardie, A. (2012). Corpus Linguistics : Method, Theory and Practice. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408835
- Schreibman, S., Siemens, R. G., & Unsworth, J. (2004). A Companion to Digital Humanities. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=231516
- Введение в лингвистику : учебное пособие / Н. А. Шабанова, С. А. Станиславская, О. И. Соколова, С. М. Федюнина. — 2-е изд., доп. — Москва : ФЛИНТА, 2019. — 71 с. — ISBN 978-5-9765-4249-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/123650 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Kurdi, M. Z. (2017). Natural Language Processing and Computational Linguistics 2 : Semantics, Discourse and Applications. London, UK: Wiley-ISTE. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1642577