• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В России появилась первая рукописная книга, распознанная полностью при помощи искусственного интеллекта. Расшифрованы все тома "Дневника" Ф.П. Литке.

В России появилась первая рукописная книга, распознанная полностью при помощи искусственного интеллекта. Расшифрованы все тома "Дневника" Ф.П. Литке.

Из личного архива участников

В 2023 г. исследовательский коллектив начал работу по распознаванию текста дневника адмирала, основателя Императорского российского географического общества Ф.П. Литке из фондов Государственного архива Российской Федерации (далее - ГА РФ) методами искусственного интеллекта с использованием комбинации математических методов (методика восстановления траектории пера автора и нейронные сети); был распознан один том из наследия Ф.П. Литке.

В начале 2024 г. была подготовлена экспертная построчная разметка еще трех томов дневника Ф.П. Литке из фондов ГА РФ (226 фотографий разворотов дневника (листы и листы с оборотом) и 1921 отдельных строк.

В процессе этой работы были распознаны три оставшихся тома дневника Ф.П. Литке из фондов ГА РФ, что позволяет говорить о появлении в российском академическом пространстве первой книги (в 4 томах), полностью расшифрованной при помощи математических методов. Для расшифровки рукописных данных группой математиков, работающих по проекту, были разработаны три метода расшифровки (распознавания) большого массива рукописного текста, представляющего собой личные дневники одного автора. Методы основаны на построении и обучении трех нейросетевых моделей: 1) строчная модель, 2) страничная модель и 3) смешанная модель YOLO-HTR. Разработанные модели были использованы при расшифровке рукописных дневников адмирала Ф.П. Литке.

Существенно, что распознанный текст дневника Ф.П. Литке имел крайне низкий процент ошибок CER (частота ошибок в символах) и WER (частота ошибок в слов). В самом рукописном тексте верно было распознано более 96% символов (букв). При этом использованная нейронная сеть была обучена на 80 распознанных "вручную" листов архивного документа, что, с учетом расположения текста (примерно 25 строк на каждой странице), сформировало дата-сет из менее 2 000 строк. Для сравнения следует указать, что реализованный при помощи колоссальных ресурсов AI Сбер проект "Digital Петр", в задачи которого входила расшифровка рукописей Петра Великого, был осуществлен с обучением нейросети на дата-сете из 10 000 распознанных "вручную" строк (подробнее о проекте можно узнать по ссылке; см. также: Базарова Т., Димитров Д., Потанин М., Проскурякова М. Распознать и транскрибировать. Автографы Петра Великого // Воронцово поле. 2020, № 4. 64-71).

В настоящий момент группа гуманитариев в проекте (Е.М. Болтунова, А.К. Лаптев) приступила к следующему этапу работы с источником – разбору маргиналий, записей на полях, идентификации работы читателя(ей) дневника (пометы в тексте, подчеркивания синим и красным карандашом), маркированию в программе дополнительных элементов (дата, топоним, морской термин, иностранный язык), анализу соотношения использования иностранного языка с конкретной персоналией. На основе новых данных сформированы возможные варианты тестовых заданий для группы математиков, включающие в себя возможности работы с интеллектуальным анализом нарративов в текстах Ф. П. Литке и/или анализ практик чтения дневниковых записей в семейном кругу (на основе разбора помет на полях дневников Ф.П. Литке).

На последующем этапе работы все 4 тома дневника могут быть дополнены комментарием и подготовлены к публикации.