• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов

Публикации:

Полный список публикаций доступен по ссылке.

Lomov N. Enhancing YOLO Models for Handwritten Text Recognition // 38th Conference of Open Innovations Association (FRUCT). 2025. Issue 2, pp. 383-393.

Lomov N., Penskaya E., Mankovskaya S. Navigating a Collection of Handwritten Documents Using Entity Lists // IEEE XVII International Conference on Actual Problems of Electronic Instrument Engineering (APEIE 2025) (принята к печати)

Болтунова Е.М., Лаптев А.К. Распознавание рукописного текста и интеллектуальный анализ: возможности нейронных технологий (на примере работы с «Дневником» Ф. П. Литке) // Имагология и компаративистика. 2025. №23. С. 358-379.

Kiselev V.S., Kropotov D.A., Pronina N.M. Handwritten documents author verification based on the Siamese network // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences (ISPRS Archives). XLVIII-2/W5-2024, 73–78.

Болтунова Е.М., Лаптев А.К., Ломов Н.А. Каторга и рождение новой политической риторики: анализ корпуса писем политических заключенных начала ХХ века // Имагология и компаративистика. 2023. № 20. С. 294–314.

Киселев В.С., Лебедева О.Б., Третьяков Е.О. Проблемы графической, синтаксической и семантической классификации рукописных документов рубежа XVIII–XIX вв. из российских архивов: возможности машинного анализа данных (на материале коллективных писем к В. А. Жуковскому) // Имагология и компаративистика. 2023. № 19. С. 165-187. 

 

Проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов» (№22-68-00066) выполняется при поддержке Российского научного фонда.

В рамках настоящего проекта предлагается разработать систему автоматизированной навигации по рукописному тексту, предоставляющей пользователю данные о тематике, составе и структуре нерасшифрованной рукописи, а также осуществляющей моделирование корпуса рукописных текстов по запросу исследователя. В отличие от наиболее популярных подходов (распознавание всех символов текста, не реализуемое в настоящее время программным обеспечением любого класса), новая методика интеллектуального анализа данных сосредоточена на исследовании графических элементов.

Ряд задач исследования будет решен методами гуманитарных наук (графическая, синтаксическая и семантическая классификация текста), ряд – методами интеллектуального анализа данных (распознавание образов, навигация, кластеризация, анализ связей между компонентами текста). В качестве объектов изучения будет использован корпус высококачественных цифровых копий историко-литературных документов времени расцвета русской письменной культуры конца XVIII – середины XX вв., имеющих четко выраженную иерархическую и графическую организацию: письма, дневниковые записи, мемуары, записные книжки и рабочие тетради, оригиналы которых находятся в архивах России.

Новости

26 ноября 2025 г. Екатерина Болтунова и Антон Лаптев выступили с докладом на постоянном научно-практическом семинаре "Историк и документ", организованном в Российском государственном историческом архиве (РГИА). Тема прошедшего заседания - "Новые технологии в работе с архивными документами". Исследователи представили доклад на тему "«Бесшовный» подход в обработке исторических рукописей: применение стека нейросетевых технологий и больших языковых моделей для работы с архивными материалами".
26 ноября, 2025 г.
15 ноября 2025 г. состоялся международный симпозиум KNOTH 2025, на котором Никита Ломов, Елена Пенская (в соавторстве с Серафимой Маньковской) представили доклад "Navigating a Collection of Handwritten Documents using Entity Lists".
15 ноября, 2025 г.
Во втором выпуске за 2025 г. издания "Proceeding оf the 38th Conference оf Open Innovations Association (Fruct)" вышла статья Никиты Ломова о разработке моделей компьютерного зрения.
11 ноября, 2025 г.
5 ноября 2025 г. Елена Пенская и Леонид Местецкий выступили на заседании Ученого совета Факультета гуманитарных наук НИУ ВШЭ с докладом на тему "Историко-литературное наследие России. Обучение искусственного интеллекта для распознавания и анализа рукописных источников".
5 ноября, 2025 г.
В 4 номере (Т. 11) журнала "Русская литература" опубликована статья Елены Пенской "Рукописный архив между цифрой и буквой".
5 ноября, 2025 г.
Леонид Местецкий и Наталия Пронина приняли участие в конференции "Математические методы распознавания образов - 2025", которая прошла с 22 по 26 сентября 2025 года в Муроме. Организаторами выступили Федеральный исследовательский центр "Информатика и управление" РАН и Муромский институт Владимирского государственного университета.
27 сентября, 2025 г.
С помощью специально разработанной нейронной сети исследовательским коллективом была получена первоначальная машинная расшифровка пяти частей архива Модеста Корфа (ГА РФ. Ф. 728. Оп. 1. Д. 1817, Ч.1-5), затрагивающих период с 1838 по 1843 гг. 
15 сентября, 2025 г.
19 августа 2025 года на сайте издательского дома "Коммерсантъ" вышла новая беседа под названием "Методы и научные задачи распознавания рукописей". Гостями программы стали Леонид Местецкий – профессор, доктор технических наук ВМК МГУ, НИУ ВШЭ, и Елена Пенская – профессор, доктор филологических наук НИУ ВШЭ, МФТИ.
9 сентября, 2025 г.
Силами исследовательского коллектива был разработан рабочий прототип web-ресурса, позволяющий исследователям работать с историческими рукописями и проводить их интеллектуальный анализ.
10 августа, 2025 г.
18 июня Антон Лаптев провел для магистрантов направления "цифровая гуманитаристика" лекцию по теме "Реставрация изображений исторических документов, рукописных текстов"
30 июня, 2025 г.
Еще новости