• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическая обработка и анализ открытых данных Министерства культуры РФ о музейных коллекциях

ФИО студента: Глазунов Евгений Владимирович

Руководитель: Орехов Борис Валерьевич

Кампус/факультет: Факультет гуманитарных наук

Программа: Цифровые методы в гуманитарных науках (Магистратура)

Год защиты: 2021

В настоящее время интерес к цифровизации и большим данным растет. В области исследований культуры появилась культурная аналитика. Культурная аналитика изучает большие наборы данных оцифрованных объектов культуры с помощью программных средств. Ученые-гуманитарии обычно работают с относительно небольшими наборами данных, однако в последние годы в области гуманитарных наук было разработано несколько крупных баз данных, поэтому можно использовать компьютерные инструменты для исследований этих данных. Министерство культуры Российской Федерации разрабатывает инициативу создания машиночитаемой базы данных музейных экспонатов Госкаталог (Государственный каталог музейного фонда Российской Федерации), в которую потенциально планируется включить описания всех хранящихся экспонатов. Каталог еще не завершен, но в нем уже более 20 миллионов записей (запись - это описание одного музейного экспоната). Каждый музейный экспонат представлен в виде записи, содержащей информацию о многих аспектах: категория экспоната (скульптура, живопись, документ, фотография и т.д.), место производства и место его обнаружения, автор(ы), дата создания, музей, техники и материалы, размер, текстовое описание. Основная проблема заключается в том, что информация находится в текстовом формате и недостаточно структурирована. Например, имя автора можно написать многими способами ("Ф.П. Толстой", "Толстой Фёдор"), даты достаточно неструктурированные ("40-50-е гг 20 века", "1940-е"). Основной целью данного исследования является разработка технических решений для обработки неструктурированных данных и улучшения существующей разметки путем обработки данных методами автоматической обработки естественного языка. База данных содержит много видов информации, эта работа сосредоточена на четырех основных: даты, авторы, географическое положение и методы/материалы. В качестве дополнения создана система поиска по лицам в коллекции изображений (живопись, фотографии). Есть также раздел, посвященный практическому применению данных в исследованиях: эволюция лиц в живописи и фотографии, кластеризация музеев по категориям экспонатов и анализ социальной сети авторов. Существует несколько причин, по которым структурирование данных важно для таких баз данных. Во-первых, это делает ее легко доступной для поиска, поэтому информация может быть использована исследователями и аналитиками данных. Во-вторых, музеи могут использовать запросы к этой базе данных для планирования выставок, создания статистических отчетов. Она также может быть использована для создания цифровых выставок или цифрового музея, при проведении уроков по искусству. Пользователи могут найти интересные экспонаты в своем регионе или спланировать посещение музея.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ