• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Интеллектуальный анализ данных на основе решеток замкнутых описаний и прикладных онтологий

Приоритетные направления развития: математика
2015
Подразделение: Научно-учебная лаборатория интеллектуальных систем и структурного анализа

Целью проекта «Интеллектуальный анализ данных на основе решеток замкнутых описаний и прикладных онтологий» является создание новых и развитие ранее предложенных математических методов, алгоритмов и программных средств анализа больших объёмов сложноструктурированных данных с использованием базовых принципов анализа формальных понятий и онтологий различного вида, а также применение созданных средств для решения прикладных задач, разработке исследовательских и прикладных интеллектуальных информационных систем.

В новом проекте акцент сделан на оригинальных методах работы со сложноструктурированными описаниями, развиваемыми в международной научно-учебной лаборатории интеллектуальных систем и структурного анализа. Эти методы основаны на анализе формальных понятий (АФП), машинном обучении и методологии онтологически-контролируемого анализа сложноструктурированных данных. Основными задачами проекта 2015 года являются следующие.

  1. Развитие методов анализа формальных понятий, мультимодальной кластеризации, онтологического моделирования, структурного анализа, компьютерной лингвистики.
  2. Дополнение разработанной ранее методологии обработки и интеллектуального анализа информации в текстовой и структурной форме на базе метаонтологий и прикладных онтологий. Её апробация с использованием онтологий медицинской информатики и онтологий других прикладных областей.
  3. Решение отдельных прикладных задач, связанных с анализом сложноструктурированных данных
  4. Развитие автоматизированной системы научных исследований (АСНИ) Formal Context Analysis Research Toolbox (FCART) для автоматизации исследований в области анализа формальных понятий и смежных областях.
  5. Создание и апробация других программных средств для построения прикладных систем анализа данных.

Методика исследования

Проект связан с исследованиями на стыке дискретной математики, информатики и программной инженерии. Основной цикл получения новых научных результатов состоит из:

  • выдвижения предположений о закономерностях при обработке некоторого вида данных, возникающего в некоторых прикладных областях;
  • построения математической модели, отражающей эти закономерности;
  • разработки алгоритмов и реализующих их программных средств;
  • апробации программных средств при решении прикладных задач. 

Фундаментальные результаты могут быть получены либо на втором этапе, когда изучение свойств математических моделей приводит к формулировке некоторых утверждений о конкретных классах моделей, либо после полного прохождения всего цикла и обобщении алгоритмов с формулировкой утверждений о некоторых характеристиках алгоритмов.

Полевых исследований в классическом понимании термина не проводится.

В 2015 году основные усилия в рамках проекта были направлены на:

  1. обзор новых публикаций по областям исследования;
  2. обзор существующих и новых метаонтологий и предметных онтологий в различных;
  3. систематизацию информации по применению ранее разработанных математических моделей (в первую очередь – различных вариантов узорных структур) в новых прикладных областях;
  4. реализацию новых алгоритмов на основе ранее предложенных математических моделей;
  5. оптимизацию реализаций алгоритмов.

В последующем планируется провести апробацию новых алгоритмов и программных средств. Далее рассмотрим основные результаты и планы по областям.

Теоретические исследования

  1. Под руководством С.О. Кузнецова совместно с профессором Бернардом Гантером (Bernhard Ganter) из Технического университета Дрездена, профессором Амедео Наполи (Amedeo Napoli) из лаборатории LORIA Nancy и другими специалистами ведутся исследования по развитию модели узорных структур [pattern structures] в рамках анализа формальных понятий [formal concept analysis].
  2. Под руководством С.О. Кузнецова и А.А. Незнанова развивается методология извлечения знаний из больших коллекций документов (включая неструктурированные тексты) под рабочим названием Dynamic Ontology Driven Data Mining System. В настоящее время исследуется вопрос о специфике используемой метаонтологии предметной области и подключении внешних предметных онтологий.
  3. Под руководством Д.И. Игнатова изучается вопрос, можно ли рассматривать рекомендательные системы определенных классов в качестве решателей задач классификации в различных постановках.
  4. Д.А. Ильвовским и С.О. Кузнецовым доработана математическая модель структурного представления абзацев текстов на естественных языках.
  5. Д.А. Ильвовским исследованы новые способы кластеризации абзацев с использованием чащ синтактико-дискурсивного разбора
  6. Ю.С. Кашницким и Д.И. Игнатовым усилены результаты решения задач классификации на основе ансамблевых методов.
  7. Ю.С. Кашницким разработан новый метод решения задачи классификации на интервальных данных.
  8. Д.И. Игнатовым разработан новый вариант алгоритма мультимодальной кластеризации на основе коллаборативной фильтрации.
  9. Д.И. Игнатовым исследованы современные методы коллаборативной фильтрации на основе контекстной информации и булевой матричной факторизации
  10. А.А. Незнановым разработана новая версия языка запросов к внешним данным для построения графовых моделей в виде орграфов и многодольных орграфов.
  11. А.А.Незнановым исследованы современные методы онтологического моделирования и анализа данных в медицинской информатике
  12. А.А. Незнановым исследованы возможности адаптации языка запросов системы FCART для доступа к внешним онтологическим сервисам, поддерживающим промышленные стандарты SPARQL и др.

Программные разработки

  1. Под руководством А.А. Незнанова и А.А. Паринова исследуются современные системы хранения больших объемов данных, протоколы и форматы взаимодействия системы в распределенных вычислительных системах, вопросы разработки параллельных алгоритмов АФП на основе существующих последовательных алгоритмов, вопросы параллельных вычислений с помощью видеокарт.
  2. А.А. Париновым реализована новая версия серверной части системы FCART, предоставляющая возможность промежуточного хранения данных [Intermediate Data Storage] из внешних источников данных и проведения параллельных вычислений на стороне сервера.
  3. А.А. Париновым реализована подсистема индексации подсистема автоматического сбора данных из социальных сетей.
  4. Под руководством А.А. Незнанова и А.А. Паринова исследуются открытые источники государственных и коммерческих данных; исследуются алгоритмы применения АФП для анализа открытых данных.
  5. А.А. Незнановым в системе FCART реализована новая версия языка запросов к внешним данным для построения графовых моделей в виде орграфов и многодольных орграфов.
  6. Ю.С. Кашницким реализован классификатор графовых моделей на основе нескольких методов, включая JSM. Планируется его активное развитие.

Заключение

Исходный план работ по проекту выполнен полностью. 

Публикации по проекту:


Кашницкий Ю. С., Игнатов Д. И. Ансамблевый метод машинного обучения, основанный на рекомендации классификаторов // Интеллектуальные системы. Теория и приложения. 2015. Т. 19. № 4. С. 37-55.
Scedrov A., Barthe G., Fagerholm E., Fiore D., Schmidt B., Tibouchi M. Strongly-Optimal Structure Preserving Signatures from Type II Pairings: Synthesis and Lower Bounds, in: Public-Key Cryptography -- PKC 2015 Vol. 9020. Berlin : Springer, 2015. P. 355-376. doi
Kashnitsky Y., Sergei O. Kuznetsov. Lazy Associative Graph Classification, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at IJCAI 2015) / Ed. by Sergei O. Kuznetsov, A. Napoli, S. Rudolph. Buenos Aires : , 2015. P. 63-74.
Masyutin A., Kashnitsky Y., Kuznetsov S. Lazy Classication with Interval Pattern Structures: Application to Credit Scoring, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at IJCAI 2015) / Ed. by Sergei O. Kuznetsov, A. Napoli, S. Rudolph. Buenos Aires : , 2015. P. 43-54.
Galitsky B., Ilvovsky D., Kuznetsov S. Rhetoric map of an answer to compound queries, in: ACL-IJCNLP 2015 - 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, Proceedings of the Conference. Vol. 2: Short papers. Beijing : , 2015. P. 681-686.
Kuznetsov S., Makhalova T. Concept interestingness measures: a comparative study, in: Proceedings of the Twelfth International Conference on Concept Lattices and Their Applications Clermont-Ferrand, France, October 13-16, 2015 Vol. 1466. Clermont-Ferrand : CEUR Workshop Proceedings, 2015. P. 59-72.
Buzmakov A. V., Kuznetsov S., Napoli A. Fast Generation of Best Interval Patterns for Nonmonotonic Constraints, in: Machine Learning and Knowledge Discovery in Databases. European Conference, ECML PKDD 2015, Porto, Portugal, September 7-11, 2015, Proceedings Vol. 9285. Part 2. L., NY, Dordrecht, Heidelberg, Cham : Springer, 2015. P. 157-172.
Kaytoue M., Codocedo V., Buzmakov A. V., Baixeries J., Kuznetsov S., Napoli A. Pattern Structures and Concept Lattices for Data Mining and Knowledge Processing, in: Machine Learning and Knowledge Discovery in Databases. European Conference, ECML PKDD 2015, Porto, Portugal, September 7-11, 2015, Proceedings Vol. 9286. Part III. L., NY, Dordrecht, Heidelberg, Cham : Springer, 2015. P. 227-231.
Buzmakov A. V., Kuznetsov S., Napoli A. Revisiting pattern structure projections, in: Formal Concept Analysis. 13th International Conference, ICFCA 2015, Nerja, Spain, June 23-26, 2015, Proceedings Vol. 9113. Springer, 2015. P. 200-215.
Ignatov D. I., Ахматнуров М. Context-Aware Recommender System Based on Boolean Matrix Factorisation, in: Proceedings of the Twelfth International Conference on Concept Lattices and Their Applications Clermont-Ferrand, France, October 13-16, 2015 Vol. 1466. Clermont-Ferrand : CEUR Workshop Proceedings, 2015. P. 99-110.
Зудин С., Gnatyshak D. V., Ignatov D. I. Putting OAC-triclustering on MapReduce, in: Proceedings of the Twelfth International Conference on Concept Lattices and Their Applications Clermont-Ferrand, France, October 13-16, 2015 Vol. 1466. Clermont-Ferrand : CEUR Workshop Proceedings, 2015. P. 47-58.
Slezak D., Кашницкий Ю. С., Кузнецов С. О. Infobright: оптимизация SQL запросов с помощью приближений теории неточных множеств // Информационные системы и технологии. 2015
Ignatov D. I., Sarwar S. M., Hasan M., Billal M. Similarity Aggregation for Collaborative Filtering, in: Analysis of Images, Social Networks and Texts. 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9–11, 2015, Revised Selected Papers / Ed. by M. Y. Khachay, N. Konstantinova, A. Panchenko, D. I. Ignatov, V. Labunets. Vol. 542: Series: Communications in Computer and Information Science. Switzerland : Springer, 2015.
Neznanov A., Parinov A. Analyzing Social Networks Services Using FormalConcept Analysis Research Toolbox, in: CEUR Workshop Proceedings. Proceedings of the International Workshop on Social Network Analysis using Formal Concept Analysis (SNAFCA 2015) / Ed. by R. Missaoui, S. Kuznetsov, S. Obiedkov. Issue 1534: SNAFCA 2015 Social Network Analysis using Formal Concept Analysis. Malaga : CEUR Workshop Proceedings, 2015. Ch. 5. P. 43-54.
Galitsky B., Ilvovsky D., Kuznetsov S. Text integrity assessment: Sentiment profile vs rhetoric structure, in: Computational Linguistics and Intelligent Text Processing. 16th International Conference, CICLing 2015, Cairo, Egypt, April 14-20, 2015, Proceedings, Part II. Vol. 9042. Berlin : Springer, 2015. P. 126-139. doi
Galitsky B., Ilvovsky D., Kuznetsov S. Text Classification into Abstract Classes Based on Discourse Structure, in: Proceedings of the Recent Advances in Natural Language Processing, RANLP 2015. Hissar : , 2015. P. 201-207.
CEUR Workshop Proceedings. Proceedings of the International Workshop on Social Network Analysis using Formal Concept Analysis (SNAFCA 2015) / Ed. by R. Missaoui, S. Kuznetsov, S. Obiedkov. Issue 1534: SNAFCA 2015 Social Network Analysis using Formal Concept Analysis. Malaga : CEUR Workshop Proceedings, 2015.
Makhalova T., Ilvovsky D., Galitsky B. News clustering approach based on discourse text structure, in: ACL-IJCNLP 2015, Proceedings of the First Workshop on Computing News Storylines. Beijing : , 2015. P. 16-20.
Makhalova T., Ilvovsky D., Galitsky B. Pattern structures for news clustering, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at IJCAI 2015) / Ed. by Sergei O. Kuznetsov, A. Napoli, S. Rudolph. Buenos Aires : , 2015. P. 35-42.

См. также

Ключевые слова