2017/2018
Введение в цифровые гуманитарные науки
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
3, 4 модуль
Язык:
русский
Кредиты:
6
Контактные часы:
80
Программа дисциплины
Аннотация
Курс «Введение в Digital Humanities 1» знакомит студентов с новыми исследовательскими подходами и задачами в филологии,истории, лингвистике, культурологии, опирающимися на применение методов компьютерной обработки текста. Эти методы включают в себя создание и анализ корпусов текстов, построение статистических моделей, работу с большими данными, формализацию параметров текста, стилометрию, сетевой анализ, создание машиночитаемой структурированной разметки. Упомянутые подходы широко используются в современных гуманитарных исследования. Задача курса состоит в том, чтобы показать студентам исследовательский потенциал этих методов и вооружить их практическими навыками работы с существующими инструментами компьютерных исследований в гуманитарной сфере.
Цель освоения дисциплины
- Освоение подходов и стандартов в области работы с гуманитарными данными в цифровой форме, освоение технологий и инструментов, позволяющих самостоятельно осуществлять цифровые гуманитарные исследования.
- Познакомить студентов с цифровыми методами, применяющимися в современных гуманитарных исследованиях: частотным анализом текстов, корпусными методами, стилометрией, сетевым анализом; дать опыт практического применения этих методов в самостоятельных исследованиях.
Планируемые результаты обучения
- Знает историю становления и развития точных методов в гуманитарных областях
- Понимает границы применимости точных методов к гуманитарным объектам исследования
- Имеет представление о современных методах получения, обработки и анализа гуманитарных данных
- умеет осуществлять поиск в корпусе Google Books при помощи интерфейса google Ngram Viewer, в том числе с применением специальных операторов запроса
- Понимает, в чем состоит вызов "великого непрочитанного" (the great unread) и почему традиционные методы филологических исследований трудно масштабируемы
- умеет осуществлять поиск в лингвистических корпусах, в том числе с применением специальных операторов запроса, обращающихся к грамматической, семантической и метатекстовой разметке;
- может установить, включить и применить корпусный менеджер для исследования собственных корпусов текстов
- владеет основами частотного анализа лексики, имеет представление о законе Ципфа, абсолютных и относительных частотностях, мере TF-IDF
- умеет пользоваться инструментами стилеметрии, в частности, использовать программный пакет stylo
- понимает принципы работы современных методов количественной атрибуции авторства (метод Delta)
- может формализовать гуманитарные объекты исследования в виде математического графа
- умеет производить сетевой анализ, расчитывать сетевые метрики центральности, применять алгоритмы кластеризации графа
- знает современные практики и международные стандарты сохранения культурного наследия в цифровой форме (digital preservation)
- умеет создавать и использовать в исследовательской работе XML-разметку
- понимает место и предназначение структурированной разметки текста (HTML, XML, TEI-XML) в количественных гуманитарных исследованиях
- умеет применять системы геоинформационного анализа и геопривязки для исследований в гуманитарных областях
- умеет осуществлять запросы к открытой базе знаний Wikidata при помощи языка SPARQL
- владеет языком SPARQL-запросов для работы с базами знаний на основе стандарта RDF
Содержание учебной дисциплины
- Новые методы в гуманитарных наукахГуманитарные науки и вызов цифровой эпохи. Анализ данных в литературоведении, лингвистике, исторической науке, культурологии, истории искусства и креативных индустрий. Цифровые издания, картографические проекты, количественное отображение культурных трендов, визуализация, сети и графы в гуманитарных науках.
- Компьютерные методы в филологииПроблема репрезентативности литературного канона. «Дальнее чтение» (Distant Reading) Франко Моретти как способ объективизации филологического исследования. Макроанализ М. Джокерса. Идея «масштабируемого чтения». Использование инструмента Google Ngram Viewer; ограничения этого инструмента
- Корпусные исследованияПонятие корпуса. Корпус текстов как исследовательский объект. Виды корпусов. Лингвистические корпусы, национальные корпусы. Параллельные, устные, мультимедийные корпусы. Разметка и метаинформация в корпусе. Запросы к корпусу. Типология корпусных исследований. Корпусные исследования прозы: на какую помощь со стороны цифрового знания рассчитывают литературоведы? Что можно посчитать в романе? Корпусные исследования поэзии. Семантический ореол метра.
- СтилометрияИстория формальных исследований авторского стиля. Проблема спорного авторства и количественные подходы к её решению. Спорное авторство произведений Шекспира, Шолохова, «Записок федералиста» и д.р. Пример раскрытия авторства Дж. Роулинг. Понятие идиостиля автора. Программный пакет stylo для определения авторства. Стилометрия для исследований жанровых различий и стилохронографии.
- Теория сетей (графов) и её применения в гуманитарных науках.Математический граф и его основные элементы (ребра, вершины). Применение теории графов в анализе социальных сетей. История становления сетевого анализа в гуманитарных областях. Гарвардский прорыв 1960-х. Социологические, исторические, культурологические исследования с использованием теории графов. Применение сетевого анализа в литературоведении. Значимые количественные (математические) параметры графа. Плотность и диаметр графа. Основные свойства ребер и вершин. Степень вершины. Метрики центральности (betweenness centrality, closeness centrality, eigenvector centrality). Программа для анализа и визуализации графов Gephi. Основные возможности Gephi: импорт графа, алгоритмы укладки на плоскости, подсчет метрик и статистики, кластеризация графа с использованием Лувенского алгоритма.
- Философские основы Digital Humanities; возможности и вопросыЦифровые гуманитарные исследования как междисциплинарный научный проект поднимают сложные теоретические и методологические вопросы. Возникшие цифровые представления различных объектов исследования гуманитариев (тексты, изображения, трехмерные объекты) требуют комплексного осмысления новых научных практик и их философских оснований. Эта часть курса посвящена осмыслению Digital Humanities как заметного направления в современной гуманитарной науке и проводится при участии школы философии факультета гуманитарных наук НИУ ВШЭ.
- Структурированная разметка текста при помощи XML. Международный стандарт сохранения текстового наследия TEI/XMLСтруктурированная машиночитаемая разметка (XML) позволяет превращать оцифрован-ный текст из цепочки символов в иерархически упорядоченный набор структурированных данных (и метаданных) с явно заданной привязкой к конкретным элементам текста. Это от-крывает богатые возможности как для цифрового сохранения культурного наследия, так и для исследования текстов цифровыми методами с опорой на разметку. Использование для кодирования значимой информации о тексте единого международного стандарта TEI/XML позволяет использовать готовые инструменты анализа и веб-представления размеченных текстов с минимальными усилиями. Эта часть курса посвящена знакомству с XML, TEI/XML и базовыми средствами работы с ними.
- Геоинформационные системы (GIS). Применение GIS в гуманитарных исследованиях.Основные компоненты геоинформационных систем. Географические данные в гуманитарных науках. Карты прошлого: исторические геоинформационные системы. Геоинформатика в литературоведении. Использование открытых электронных картографических инструментов
- Открытые источники машиночитаемой структурированной информации. Wikidata. Формат моделирования и хранения знаний RDFСемантический веб и связанные открытые данные (linked open data). Общедоступные базы данных (Wikidata, DBPedia, FOAF) и работа с ними; онтологии (SOWA, Dublin Core) и их применение. Использование Wikidata в научном исследовании: постановка вопроса, получение данных, визуализация, количественный анализ, качественная интерпретация.
Элементы контроля
- защита проекта 1 (корпусные методы и столометрия)
- Защита проекта 2 (сетевой анализ)
- Исследовательский проект 3 (геоинформационная система)
- Исследовательский проект 4 (исследование с применением машиночитаемых данных)
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.25 * защита проекта 1 (корпусные методы и столометрия) + 0.25 * Защита проекта 2 (сетевой анализ) + 0.25 * Исследовательский проект 3 (геоинформационная система) + 0.25 * Исследовательский проект 4 (исследование с применением машиночитаемых данных)
Список литературы
Рекомендуемая основная литература
- - Основы XML - Национальный Открытый Университет "ИНТУИТ" - 2016 - 436с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100354
- Bod, R. 1965-author. (2014). A New History of the Humanities : The Search for Principles and Patterns From Antiquity to the Present. Oxford: OUP Oxford. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=683846
- Burnard, L. (2014). What is the Text Encoding Initiative? France, Europe: OpenEdition Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.3FB145E0
- Hoover, D. L., O’Halloran, K., & Culpeper, J. (2014). Digital Literary Studies : Corpus Approaches to Poetry, Prose, and Drama. New York: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=697081
- Klaus Graf. (2011). List of Digital Humanities GIS (Geographical Information Systems) projects. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EFA58334
- Moretti, F. (2013). Distant Reading. London [England]: Verso. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=729748
- Network theory, plot analysis. (2011). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.629DE0C9
- Newman, M. E. J. (2010). Networks : An Introduction. Oxford: OUP Oxford. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=458550
- Schreibman, S., Siemens, R. G., & Unsworth, J. (2004). A Companion to Digital Humanities. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=231516
- Антониоу Г., Грос П., Хармелен ван Ф. - Семантический веб - Издательство "ДМК Пресс" - 2016 - 240с. - ISBN: 978-5-97060-333-8 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/69963
Рекомендуемая дополнительная литература
- Farda-Sarbas, M., & Müller-Birn, C. (2019). Wikidata from a Research Perspective —— A Systematic Mapping Study of Wikidata. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1908.11153
- François Dominic Laramée. (2018). Introduction to stylometry with Python. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.4A7FD5D1
- Lévy-Bruhl, L. (2018). The Philosophy of Auguste Comte. New York: SNOVA. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1855161
- Ramsay, S. (2011). Reading Machines : Toward and Algorithmic Criticism. Urbana: University of Illinois Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=569551
- Schöch, C., & Eder, M. (2018). Distant Reading for European Literary History, a COST Action. https://doi.org/10.5281/zenodo.1297690
- Underwood, T. (2016). Distant Reading and Recent Intellectual History. Germany, Europe: Humanities Commons. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.C1B34BEF
- VRANDEČIĆ, D., & KRÖTZSCH, M. (2014). Wikidata: A Free Collaborative Knowledgebase. Communications of the ACM, 57(10), 78–85. https://doi.org/10.1145/2629489
- Wikidata: A large-scale collaborative ontological medical database. (2019). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.33EA9317