• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2017/2018

Введение в цифровые гуманитарные науки

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 3, 4 модуль
Преподаватели: Орехов Борис Валерьевич, Скоринкин Даниил Андреевич, Фишер Франк
Язык: русский
Кредиты: 6
Контактные часы: 80

Программа дисциплины

Аннотация

Курс «Введение в Digital Humanities 1» знакомит студентов с новыми исследовательскими подходами и задачами в филологии,истории, лингвистике, культурологии, опирающимися на применение методов компьютерной обработки текста. Эти методы включают в себя создание и анализ корпусов текстов, построение статистических моделей, работу с большими данными, формализацию параметров текста, стилометрию, сетевой анализ, создание машиночитаемой структурированной разметки. Упомянутые подходы широко используются в современных гуманитарных исследования. Задача курса состоит в том, чтобы показать студентам исследовательский потенциал этих методов и вооружить их практическими навыками работы с существующими инструментами компьютерных исследований в гуманитарной сфере.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение подходов и стандартов в области работы с гуманитарными данными в цифровой форме, освоение технологий и инструментов, позволяющих самостоятельно осуществлять цифровые гуманитарные исследования.
  • Познакомить студентов с цифровыми методами, применяющимися в современных гуманитарных исследованиях: частотным анализом текстов, корпусными методами, стилометрией, сетевым анализом; дать опыт практического применения этих методов в самостоятельных исследованиях.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает историю становления и развития точных методов в гуманитарных областях
  • Понимает границы применимости точных методов к гуманитарным объектам исследования
  • Имеет представление о современных методах получения, обработки и анализа гуманитарных данных
  • умеет осуществлять поиск в корпусе Google Books при помощи интерфейса google Ngram Viewer, в том числе с применением специальных операторов запроса
  • Понимает, в чем состоит вызов "великого непрочитанного" (the great unread) и почему традиционные методы филологических исследований трудно масштабируемы
  • умеет осуществлять поиск в лингвистических корпусах, в том числе с применением специальных операторов запроса, обращающихся к грамматической, семантической и метатекстовой разметке;
  • может установить, включить и применить корпусный менеджер для исследования собственных корпусов текстов
  • владеет основами частотного анализа лексики, имеет представление о законе Ципфа, абсолютных и относительных частотностях, мере TF-IDF
  • умеет пользоваться инструментами стилеметрии, в частности, использовать программный пакет stylo
  • понимает принципы работы современных методов количественной атрибуции авторства (метод Delta)
  • может формализовать гуманитарные объекты исследования в виде математического графа
  • умеет производить сетевой анализ, расчитывать сетевые метрики центральности, применять алгоритмы кластеризации графа
  • знает современные практики и международные стандарты сохранения культурного наследия в цифровой форме (digital preservation)
  • умеет создавать и использовать в исследовательской работе XML-разметку
  • понимает место и предназначение структурированной разметки текста (HTML, XML, TEI-XML) в количественных гуманитарных исследованиях
  • умеет применять системы геоинформационного анализа и геопривязки для исследований в гуманитарных областях
  • умеет осуществлять запросы к открытой базе знаний Wikidata при помощи языка SPARQL
  • владеет языком SPARQL-запросов для работы с базами знаний на основе стандарта RDF
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Новые методы в гуманитарных науках
    Гуманитарные науки и вызов цифровой эпохи. Анализ данных в литературоведении, лингвистике, исторической науке, культурологии, истории искусства и креативных индустрий. Цифровые издания, картографические проекты, количественное отображение культурных трендов, визуализация, сети и графы в гуманитарных науках.
  • Компьютерные методы в филологии
    Проблема репрезентативности литературного канона. «Дальнее чтение» (Distant Reading) Франко Моретти как способ объективизации филологического исследования. Макроанализ М. Джокерса. Идея «масштабируемого чтения». Использование инструмента Google Ngram Viewer; ограничения этого инструмента
  • Корпусные исследования
    Понятие корпуса. Корпус текстов как исследовательский объект. Виды корпусов. Лингвистические корпусы, национальные корпусы. Параллельные, устные, мультимедийные корпусы. Разметка и метаинформация в корпусе. Запросы к корпусу. Типология корпусных исследований. Корпусные исследования прозы: на какую помощь со стороны цифрового знания рассчитывают литературоведы? Что можно посчитать в романе? Корпусные исследования поэзии. Семантический ореол метра.
  • Стилометрия
    История формальных исследований авторского стиля. Проблема спорного авторства и количественные подходы к её решению. Спорное авторство произведений Шекспира, Шолохова, «Записок федералиста» и д.р. Пример раскрытия авторства Дж. Роулинг. Понятие идиостиля автора. Программный пакет stylo для определения авторства. Стилометрия для исследований жанровых различий и стилохронографии.
  • Теория сетей (графов) и её применения в гуманитарных науках.
    Математический граф и его основные элементы (ребра, вершины). Применение теории графов в анализе социальных сетей. История становления сетевого анализа в гуманитарных областях. Гарвардский прорыв 1960-х. Социологические, исторические, культурологические исследования с использованием теории графов. Применение сетевого анализа в литературоведении. Значимые количественные (математические) параметры графа. Плотность и диаметр графа. Основные свойства ребер и вершин. Степень вершины. Метрики центральности (betweenness centrality, closeness centrality, eigenvector centrality). Программа для анализа и визуализации графов Gephi. Основные возможности Gephi: импорт графа, алгоритмы укладки на плоскости, подсчет метрик и статистики, кластеризация графа с использованием Лувенского алгоритма.
  • Философские основы Digital Humanities; возможности и вопросы
    Цифровые гуманитарные исследования как междисциплинарный научный проект поднимают сложные теоретические и методологические вопросы. Возникшие цифровые представления различных объектов исследования гуманитариев (тексты, изображения, трехмерные объекты) требуют комплексного осмысления новых научных практик и их философских оснований. Эта часть курса посвящена осмыслению Digital Humanities как заметного направления в современной гуманитарной науке и проводится при участии школы философии факультета гуманитарных наук НИУ ВШЭ.
  • Структурированная разметка текста при помощи XML. Международный стандарт сохранения текстового наследия TEI/XML
    Структурированная машиночитаемая разметка (XML) позволяет превращать оцифрован-ный текст из цепочки символов в иерархически упорядоченный набор структурированных данных (и метаданных) с явно заданной привязкой к конкретным элементам текста. Это от-крывает богатые возможности как для цифрового сохранения культурного наследия, так и для исследования текстов цифровыми методами с опорой на разметку. Использование для кодирования значимой информации о тексте единого международного стандарта TEI/XML позволяет использовать готовые инструменты анализа и веб-представления размеченных текстов с минимальными усилиями. Эта часть курса посвящена знакомству с XML, TEI/XML и базовыми средствами работы с ними.
  • Геоинформационные системы (GIS). Применение GIS в гуманитарных исследованиях.
    Основные компоненты геоинформационных систем. Географические данные в гуманитарных науках. Карты прошлого: исторические геоинформационные системы. Геоинформатика в литературоведении. Использование открытых электронных картографических инструментов
  • Открытые источники машиночитаемой структурированной информации. Wikidata. Формат моделирования и хранения знаний RDF
    Семантический веб и связанные открытые данные (linked open data). Общедоступные базы данных (Wikidata, DBPedia, FOAF) и работа с ними; онтологии (SOWA, Dublin Core) и их применение. Использование Wikidata в научном исследовании: постановка вопроса, получение данных, визуализация, количественный анализ, качественная интерпретация.
Элементы контроля

Элементы контроля

  • неблокирующий защита проекта 1 (корпусные методы и столометрия)
  • неблокирующий Защита проекта 2 (сетевой анализ)
  • неблокирующий Исследовательский проект 3 (геоинформационная система)
  • неблокирующий Исследовательский проект 4 (исследование с применением машиночитаемых данных)
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.25 * защита проекта 1 (корпусные методы и столометрия) + 0.25 * Защита проекта 2 (сетевой анализ) + 0.25 * Исследовательский проект 3 (геоинформационная система) + 0.25 * Исследовательский проект 4 (исследование с применением машиночитаемых данных)
Список литературы

Список литературы

Рекомендуемая основная литература

  • - Основы XML - Национальный Открытый Университет "ИНТУИТ" - 2016 - 436с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100354
  • Bod, R. 1965-author. (2014). A New History of the Humanities : The Search for Principles and Patterns From Antiquity to the Present. Oxford: OUP Oxford. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=683846
  • Burnard, L. (2014). What is the Text Encoding Initiative? France, Europe: OpenEdition Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.3FB145E0
  • Hoover, D. L., O’Halloran, K., & Culpeper, J. (2014). Digital Literary Studies : Corpus Approaches to Poetry, Prose, and Drama. New York: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=697081
  • Klaus Graf. (2011). List of Digital Humanities GIS (Geographical Information Systems) projects. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EFA58334
  • Moretti, F. (2013). Distant Reading. London [England]: Verso. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=729748
  • Network theory, plot analysis. (2011). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.629DE0C9
  • Newman, M. E. J. (2010). Networks : An Introduction. Oxford: OUP Oxford. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=458550
  • Schreibman, S., Siemens, R. G., & Unsworth, J. (2004). A Companion to Digital Humanities. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=231516
  • Антониоу Г., Грос П., Хармелен ван Ф. - Семантический веб - Издательство "ДМК Пресс" - 2016 - 240с. - ISBN: 978-5-97060-333-8 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/69963

Рекомендуемая дополнительная литература

  • Farda-Sarbas, M., & Müller-Birn, C. (2019). Wikidata from a Research Perspective —— A Systematic Mapping Study of Wikidata. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1908.11153
  • François Dominic Laramée. (2018). Introduction to stylometry with Python. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.4A7FD5D1
  • Lévy-Bruhl, L. (2018). The Philosophy of Auguste Comte. New York: SNOVA. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1855161
  • Ramsay, S. (2011). Reading Machines : Toward and Algorithmic Criticism. Urbana: University of Illinois Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=569551
  • Schöch, C., & Eder, M. (2018). Distant Reading for European Literary History, a COST Action. https://doi.org/10.5281/zenodo.1297690
  • Underwood, T. (2016). Distant Reading and Recent Intellectual History. Germany, Europe: Humanities Commons. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.C1B34BEF
  • VRANDEČIĆ, D., & KRÖTZSCH, M. (2014). Wikidata: A Free Collaborative Knowledgebase. Communications of the ACM, 57(10), 78–85. https://doi.org/10.1145/2629489
  • Wikidata: A large-scale collaborative ontological medical database. (2019). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.33EA9317