Выступление Д. С. Фроловова (ФКН ВШЭ) и Б.Г. Миркина (НИУ ВШЭ) на тему "Рубрикация коллекции документов с помощью формирования тематических нечетких кластеров и их оптимального подъема в таксономии предметной области"
16 мая 2018 г. в НИУ ВШЭ состоялось внеочередное заседание общемосковского научного семинара "МАТЕМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА РЕШЕНИЙ В ЭКОНОМИКЕ, БИЗНЕСЕ И ПОЛИТИКЕ".
Руководители семинара:
д.т.н., проф. Алескеров Фуад Тагиевич,
д.т.н., проф. Подиновский Владислав Владимирович,
д.т.н., проф. Миркин Борис Григорьевич.
Рубрикация коллекции документов
с помощью формирования тематических нечетких кластеров и
их оптимального подъема в таксономии предметной области
Докладчики: Д. С. Фролов (ФКН ВШЭ), Б.Г. Миркин (ФКН ВШЭ)
Авторы: Д. С. Фролов (ФКН ВШЭ), С. Насименто (Новый университет Лиссабона, Португалия),
Т. Феннер (Лондонский университет), Б.Г. Миркин (ФКН ВШЭ)
Аннотация:
Рубрикация коллекции документов с помощью формирования тематических нечетких кластеров и их оптимального подъема в таксономии предметной области
Современное состояние информационного поиска существенно опирается на индивидуальное экспертное суждение о релевантности документов запросу. В данной работе делается попытка избежать этой неавтоматизированной компоненты, перенеся акцент с проблемы оценки релевантности на проблему интерпретации массива выданных документов. С этой целью предлагается многоступенчатая процедура, включающая следующие этапы:
1. Формирование таксономии предметной области.
2. Построение таблицы Т оценок релевантности "тема таксономии - документ".
3. Формирование нечетких кластеров "тем таксономии", соответствующих структуре коллекции документов.
4. Оптимальный подъем тематических кластеров к верхним ярусам таксономии.
В докладе рассматривается применение этой методики к анализу порядка 18000 статей, опубликованных в 17 журналах по информатике в издательстве Шпрингер в 1998-2017 гг., на основе таксономии Науки данных, разработанной нами на основе Классификации Компьютерных Наук Всемирной Ассоциации Вычислительных Машин (2012).