Το Βυζαντινό ντάτασετ: как рассказывать византинистам о DH-проекте
Студенты первого курса программы «Цифровые технологии в гуманитарных исследованиях» Ксения Дмитриева, Екатерина Моисеева и Константин Сатдаров представили свой проект в Институте классического Востока и Античности Факультета гуманитарных наук НИУ ВШЭ

Магистранты ЦТГИ Ксения Дмитриева, Екатерина Моисеева и Константин Сатдаров представили доклад «От сканов к данным: опыт создания открытого машиночитаемого корпуса византийской историографии на основе печатных изданий». Докладчики рассказали о том, что на данный момент не существует доступного корпуса, который позволил бы провести DH-исследование на византийском материале. Решением этой проблемы является оцифровка отсканированных изданий, чем и занимается команда в рамках своего проекта под руководством Ольги Валерьевны Алиевой. Студенты представили решение с использованием дообученной модели Tesseract и больших языковых моделей, рассказали о текущих успехах и прогрессе оцифровки, а также поделились планами дальнейшего развития корпуса.
«Для нас было очень важно выступить именно перед коллегами-византинистами, поскольку на них в первую очередь рассчитан наш продукт, — рассказывают участники проекта. — У аудитории возникло очень много вопросов: спрашивали и о технических деталях, и о том, какие области применения могут быть у корпуса. И хотя явно не все поняли, что мы вообще затеяли, было очень приятно, что все заинтересовались. Ощущается как исполнение мечты!»

