• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

На портале HSE Daily опубликовано интервью с заведующей лабораторией Екатериной Болтуновой

Автограф В.А. Жуковского

Автограф В.А. Жуковского
Томский государственный университет

Российский научный фонд поддержал проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов».

Аннотация проекта:

Рукописные тексты представляют собой фундаментальную часть человеческой культуры. В музеях, архивах, институтах и библиотеках России находится значительный корпус не введенных в широкий научных оборот рукописных памятников. Особую актуальность это приобретает по отношению к памятникам русской культуры конца XVIII – середины ХХ вв., 80 % которых до настоящего времени не только не опубликовано, но и не расшифровано. В настоящее время подавляющее количество гуманитарных исследований рукописных документов предполагает извлечении информации из этих источников вручную, в процессе расшифровки и подготовки текста к научной публикации. Несмотря на точечную результативность, для корпуса архивных материалов подобного объема приведенная организация работ неэффективна и закономерно приводит к тиражированию и анализу одного и того же набора текстов. Создание современной методики анализа информации, потенциально содержащейся в рукописных документах, является крайне актуальной научно-исследовательской задачей. Для решения этой задачи на современном научном уровне необходимо обратиться к междисциплинарным исследованиям, применяющих методы новейших разработок в сфере искусственного интеллекта – тематическое моделирование и интеллектуальный анализ данных – к задачам таких традиционно-гуманитарных дисциплин, как источниковедение и текстология. В рамках настоящего проекта предлагается разработать систему автоматизированной навигации по рукописному тексту, предоставляющей пользователю данные о тематике, составе и структуре нерасшифрованной рукописи, а также осуществляющей моделирование корпуса рукописных текстов по запросу исследователя. В отличие от наиболее популярных подходов (распознавание всех символов текста, не реализуемое в настоящее время программным обеспечением любого класса), новая методика интеллектуального анализа данных сосредоточена на исследовании графических элементов. Графический анализ таких основных элементов поисковой системы как ключевые слова (сходство изображений-слов как растровых паттернов) в комбинации с дополнительными элементами (выделение области даты и места создания, форма, размеры и расположение обращения, подписи, заголовка, расположение пунктуационных знаков и даже строфика) позволит перейти от графики к семантике и, исходя из их сочетания, сделать выводы о составе и содержании рукописного источника. При использовании системы автоматизированной навигации поиск нужной информации в растровом массиве нераспознанного текста будет занимать не месяцы и годы гуманитарных исследований, а несколько минут. В предлагаемом исследовании ряд задач будет решен методами гуманитарных наук (графическая, синтаксическая и семантическая классификация текста), ряд – методами интеллектуального анализа данных (распознавание образов, навигация, кластеризация, анализ связей между компонентами текста). В качестве объектов изучения будет использован корпус высококачественных цифровых копий историко-литературных документов времени расцвета русской письменной культуры конца XVIII – середины XX вв., имеющих четко выраженную иерархическую и графическую организацию: письма, дневниковые записи, мемуары, записные книжки и рабочие тетради, оригиналы которых находятся в архивах России.

О том, как возник замысел проекта, какие инструменты планируется использовать, кто входит в команду проекта и многом другом - в интервью с руководителем проекта, профессором, заведующей Лабораторией региональной истории России факультета гуманитарных наук Екатериной Болтуновой для HSE Daily.