Магистратура
2021/2022




Цифровые методы анализа текстов
Статус:
Курс по выбору (Цифровые методы в гуманитарных науках)
Направление:
46.04.01. История
Кто читает:
Кафедра гуманитарных дисциплин (Пермь)
Где читается:
Факультет экономики (Пермь)
Когда читается:
2-й курс, 1 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
60
Охват аудитории:
для своего кампуса
Прогр. обучения:
Цифровые методы в гуманитарных науках
Язык:
русский
Кредиты:
4
Контактные часы:
2
Программа дисциплины
Аннотация
Курс «Цифровые технологии работы с текстами» направлен на формирование знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением. Задачи курса: изучить методологические и методические аспекты работы с документами в формате электронного текста; уметь создавать электронный текст как информационный ресурс и визуализировать его в различных форматах; изучить элементы гипертекста и его возможности для работы и представления текстовых данных; изучить методы, технологии и программное обеспечение для компьютеризированного анализа текстовых документов (языки глубокой разметки текстов, компьютеризированный контент-анализ). Подавляющее большинство данных исследований гуманитарных наук хранится в виде документов XML-TEI, TEI стала де-факто стандартной технологией в области цифровых гуманитарных наук. Цель курса – познакомить с практическими аспектами кодирования XML-документов, отмеченных в соответствии с рекомендациями TEI, а затем использовать эти документы, применяя другие технологии, такие как Xpath, CSS, XSLT и Xquery. В рамках курса будут рассмотрены основы корпусной лингвистики. Студенты получат ряд практических навыков от навыка сбора информации в корпусах до умения составлять упражнения с использованием корпусных данных. Студенты научатся пользоваться существующими корпусами русского и английского языков, освоят базовые методы корпусного преподавания, смогут экономить время и усилия, используя корпуса в повседневной работе. В рамках курса изучаются следующие разделы: Методология и методика работы с текстовыми источниками. Электронный текст как информационный ресурс; Гипертекст и его возможности для анализа текста; Технологии глубокой разметки XML-TEI; Компьютеризированный контент-анализ; Введение в кодирование текста XML-TEI. Способы представления документов в электронном виде; Структура документа. Основы разметки (SGML / XML). Кодирование документов. Текстовая разметка с использованием XML и TEI. Теги; Представление и преобразование документа XML-TEI. Xpath, CSS, XSLT и XQuery. Визуализация; Что такое «корпус»?; Возникновение и развитие корпусной лингвистики; Виды корпусов; Поиск информации в корпусе; Разметка корпусов; Исследование языка с помощью лингвистического корпуса: общие принципы; Исследование языка с помощью лингвистического корпуса: направления исследования и практическое применение результатов; Корпус и междисциплинарные исследования.
Цель освоения дисциплины
- Формирование у студентов знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением.
Планируемые результаты обучения
- Знает методологические и методические аспекты работы с документами в формате электронного текста. Понимает разницу между форматами, их возможности и ограничения. Умеет делать разметку документов.
- Создает электронные версии текстовых документы. Визуализирует тексты. Использует различные компьютеризированные методы анализа текстов, в т.ч. стилометрию.
- Умеет создавать собственные, находить и использовать существующие корпуса. Применяет инструменты для анализа корпусов текстов.
Содержание учебной дисциплины
- Раздел 1. Модели электронного текста
- Раздел 2. Корпусная лингвистика
- Раздел 3. Публикация и анализ текстовых документов
Промежуточная аттестация
- 2021/2022 учебный год 1 модуль0.2 * Самостоятельная работа + 0.3 * Проект + 0.5 * Экзамен
Список литературы
Рекомендуемая основная литература
- Грудева, Е. В. Корпусная лингвистика : учебное пособие / Е. В. Грудева. — 3-е изд. — Москва : ФЛИНТА, 2017. — 165 с. — ISBN 978-5-9765-1497-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/106859 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Базылев, В. Н. Наука о языке XXI века : справочник / В. Н. Базылев. — 2-е изд. — Москва : ФЛИНТА, 2016. — 135 с. — ISBN 978-5-9765-2543-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/76973 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937
- Остроух А.В., Николаев А.Б. - Интеллектуальные информационные системы и технологии: монография - Издательство "Лань" - 2019 - 308с. - ISBN: 978-5-8114-3409-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/115518