• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новости

Выступление Д. С. Фроловова (ФКН ВШЭ) и Б.Г. Миркина (НИУ ВШЭ) на тему "Рубрикация коллекции документов с помощью формирования тематических нечетких кластеров и их оптимального подъема в таксономии предметной области"

16 мая 2018 г. в НИУ ВШЭ состоялось внеочередное заседание общемосковского научного семинара "МАТЕМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА РЕШЕНИЙ  В ЭКОНОМИКЕ, БИЗНЕСЕ И ПОЛИТИКЕ".

Руководители семинара:

д.т.н., проф. Алескеров Фуад Тагиевич,

д.т.н., проф. Подиновский Владислав Владимирович,

д.т.н., проф. Миркин Борис Григорьевич.

 

Рубрикация коллекции документов 

с помощью формирования тематических нечетких кластеров и

 их оптимального подъема в таксономии предметной области

 

Докладчики: Д. С. Фролов (ФКН ВШЭ), Б.Г. Миркин (ФКН ВШЭ)

 

Авторы: Д. С. Фролов (ФКН ВШЭ), С. Насименто (Новый университет Лиссабона, Португалия),

Т. Феннер (Лондонский университет), Б.Г. Миркин (ФКН ВШЭ)

 

Аннотация: 

Рубрикация коллекции документов с помощью формирования тематических нечетких кластеров и их оптимального подъема в таксономии предметной области

 

Современное состояние информационного поиска существенно опирается на индивидуальное экспертное суждение о релевантности документов запросу. В данной работе делается попытка избежать этой неавтоматизированной компоненты, перенеся акцент с проблемы оценки релевантности на проблему интерпретации массива выданных документов. С этой целью предлагается многоступенчатая процедура, включающая следующие этапы:

1. Формирование таксономии предметной области.

2. Построение таблицы Т оценок релевантности "тема таксономии - документ".

3. Формирование нечетких кластеров "тем таксономии", соответствующих структуре коллекции документов.

4. Оптимальный подъем тематических кластеров к верхним ярусам таксономии.

 

В докладе рассматривается применение этой методики к анализу порядка 18000 статей, опубликованных в 17 журналах по информатике в издательстве Шпрингер в 1998-2017 гг., на основе таксономии Науки данных, разработанной нами на основе Классификации Компьютерных Наук Всемирной Ассоциации Вычислительных Машин (2012).