• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Версия для слабовидящихЛичный кабинет сотрудника ВШЭПоискМеню

Математические модели, алгоритмы и программные средства интеллектуального анализа данных в текстовой и структурной форме

Приоритетные направления развития: математика
2014
Подразделение: Научно-учебная лаборатория интеллектуальных систем и структурного анализа

Цель работы: разработка оригинальных моделей представления знаний и интеллектуальных методов анализа данных, включая новые методы анализа формальных понятий (АФП), новые алгоритмы трикластеризации, алгоритмы машинного обучения в задачах классификации комплексных объектов, структурные математические модели представления текстов на естественных языках и др.

Используемые методы: дискретной математики, вычислительной логики, АФП, машинного обучения, майнинга данных, компьютерной лингвистики, онтологического моделирования, теории алгоритмов, программной инженерии.  

Эмпирическая база исследования: Наборы данных в виде реляционных баз данных, коллекций текстов на естественных языках, структурных данных в виде графовых моделей различного вида.

Результаты работы:

1. Проведён анализ библиографии и написаны обзоры развития областей анализа формальных понятий, рекомендательных систем, онтологического моделирования, доступа к источникам открытых данных. В рамках теоретических исследований в области АФП, кластеризации, обработки текстов накоплен значительный объём тестовых наборов данных.

2. Повышена эффективность реализаций базовых алгоритмов АФП – построения решёток формальных понятий и работы с индексами устойчивости формальных понятий; реализации алгоритмов использованы в задачах медицинской информатики. Созданы новые версии методов и алгоритмов кластеризации и классификации на триконтекстах; реализации алгоритмов протестированы и используются в Интернет-сервисах рекомендательных систем.

3. Развит прототип оригинального программного компонента для работы с «узорными структурами [pattern structures]», предложенный в 2013 году. Он интегрирован со средствами решения задач классификации, что позволило приблизиться к созданию универсальной системы исследования задач классификации на основе разнородных и сложноструктурированных признаков, включая интервальные структуры, последовательности и графы.

4. Развита платформа DOD-DMS, позволяющей упростить построение исследовательских и прикладных программных систем в области анализа данных, в части предобработки данных из внешних источников, локального хранилища сложноструктурированных данных, эффективной индексации текстов на естественных языках. Обновлено несколько подсистем АСНИ FCART (Formal Concept Analysis Research Toolbox), предназначенной исследователей в области АФП и смежных областях дискретной математики и анализа данных. Доработаны комплекс средств анализа индексов формальных понятий любого вида, средств обработки узорных структур, редактора отчётов, встроенного скриптового языка.

5. Развита методическая и технологическая основа для обработки «больших данных». Протестировано несколько вариантов построения систем доступа к разнородным источникам данных. Создана вторая версия локального хранилища данных системы FCART (Local Data Storage) и новая система авторизации пользователей. С использованием локального хранилища реализован прототип подсистемы работы с источниками открытых данных.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР: применение методов при разработке интеллектуальных систем, применение разработанных программных средств в анализе сложноструктурированных данных в различных областях (апробация проведена в областях здравоохранения, правоохранения, маркетинга в сети Интернет).

Публикации по проекту:


Penikas H. I., undefined., Анохина М. В. Identifying SIFI Determinants for Global Banks and Insurance Companies: Implications for D-SIFIs in Russia / University of Pavia (Italy). Series DEM Working Paper Series. "ISSN: 2281-1346". 2014. No. 85. 
Zhuk R., Ignatov D. I., Konstantinova N. Concept Learning from Triadic Data // Procedia Computer Science. 2014. Vol. 31. P. 928-938. doi
Игнатов Д. И. Драфт главы к учебнику. Обзор по методам рекомендательных систем, in: Модели и методы анализа данных.: Юрайт, 2014. С. 1-42. 
Кашницкий Ю. С. Визуальная аналитика в задаче трикластеризации многомерных данных // Труды Московского физико-технического института. 2014. Т. 6. № 3. C. 43-56. 
Slezak D., Кашницкий Ю. С., Кузнецов С. О. Неточные множества для оптимизации SQL-запросов // Открытые системы. СУБД. 2014. № 10. C. 44-45. 
Kaytoue M., Kuznetsov S., Macko J., Napoli A. Biclustering meets triadic concept analysis // Annals of Mathematics and Artificial Intelligence. 2014. Vol. 70. No. 1. P. 55-79. doi
Poelmans J., Ignatov D. I., Kuznetsov S., Dedene G. Fuzzy and rough formal concept analysis: a survey // International Journal of General Systems. 2014. Vol. 43. No. 2. P. 105-134. doi
undefined., Antonova A. Y., Ilvovsky D. Detection of Domain-Specific Trends in Text Collections, in: Analysis of Images, Social Networks and Texts Third International Conference, AIST 2014, Yekaterinburg, Russia, April 10-12, 2014, Revised Selected Papers. Berlin : Springer International Publishing, 2014. С. 78-84. 
Gnatyshak D. V., Ignatov D. I., Kuznetsov S., Nourine L. A One-Pass Triclustering Approach: Is There any Room for Big Data?, in: CLA 2014: Proceedings of the Eleventh International Conference on Concept Lattices and Their Applications. Kosice : Pavol Jozef Safarik University, 2014. С. 231-242. 
Gnatyshak D. V. Greedy Modifications of OAC-triclustering Algorithm, in: Procedia Computer Science. 2nd International Conference on Information Technology and Quantitative Management, ITQM 2014. National Research University Higher School of Economics (HSE) in Moscow (Russia) on June 3-5, 2014. Amsterdam : ELSEVIER, 2014. С. 1116-1123. 
Ignatov D. I., Ненова Е. Н., Konstantinov A. V., Константинова Н. С. Boolean Matrix Factorisation for Collaborative Filtering: An FCA-Based Approach, in: Artificial Intelligence: Methodology, Systems, and Applications 16th International Conference, AIMSA 2014, Varna, Bulgaria, September 11-13, 2014. Proceedings. Dordrecht : Springer, 2014. С. 47-58. 
Ignatov D. I., Kaminskaya A. Y., Malioukov A., Konstantinova N., Poelmans J. FCA-Based Recommender Models and Data Analysis for Crowdsourcing Platform Witology, in: Proceedings of International Conference on Conceptual Structures 2014.: Springer, 2014. С. 287-292. 
Ignatov D. I., Zhuk R., Konstantinova N. Learning hypotheses from triadic labeled data, in: Proceedings of The 2014 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology, WI-IAT 2014, 11-14 August 2014 Warsaw, Poland. Los Alamitos : IEEE Computer Society Conference Publishing Services (CPS), 2014. С. 474-480. 
Ignatov D. I., Kaminskaya A. Y., Konstantinova N., Konstantinov A. V. Recommender system for crowdsourcing platform Witology, in: Proceedings of The 2014 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology, WI-IAT 2014, 11-14 August 2014 Warsaw, Poland. Los Alamitos : IEEE Computer Society Conference Publishing Services (CPS), 2014. С. 327-335. 
Galitsky B., Ilvovsky D., Kuznetsov S., Strok F. V. Finding Maximal Common Sub-parse Thickets for Multi-sentence Search, in: Graph Structures for Knowledge Representation and Reasoning Third International Workshop, GKR 2013, Beijing, China, August 3, 2013. Revised Selected Papers Editors: Madalina Croitoru, Sebastian Rudolph, Stefan Woltran, Christophe Gonzales. Springer International Publishing. 2014.. Berlin : Springer International Publishing, 2014. С. 39-57. 
Kashnitsky Y., Ignatov D. I. Can FCA-based Recommender System Suggest a Proper Classifier?, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at ECAI 2014). Prague : CEUR Workshop Proceedings, 2014. С. 17-26. 
Kashnitsky Y. Recommender-based Multiple Classifier System, in: The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases. PhD Session Proceedings., 2014. С. 21-30. 
Korepanova N., Kuznetsov S., Karachunskiy A. I. Matchings and Decision Trees for Determining Optimal Therapy, in: Analysis of Images, Social Networks and Texts Third International Conference, AIST 2014, Yekaterinburg, Russia, April 10-12, 2014, Revised Selected Papers. Berlin : Springer International Publishing, 2014. С. 101-110. 
Neznanov A., Parinov A. About Universality and Flexibility of FCA-based Software Tools, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at ECAI 2014). Prague : CEUR Workshop Proceedings, 2014. С. 59-66. 
Neznanov A., Ilvovsky D., Parinov A. Advancing FCA Workflow in FCART System for Knowledge Discovery in Quantitative Data, in: Procedia Computer Science. 2nd International Conference on Information Technology and Quantitative Management, ITQM 2014. National Research University Higher School of Economics (HSE) in Moscow (Russia) on June 3-5, 2014. Amsterdam : ELSEVIER, 2014. С. 201-210. 
Neznanov A., Parinov A. FCA Analyst Session and Data Access Tools in FCART, in: Artificial Intelligence: Methodology, Systems, and Applications 16th International Conference, AIMSA 2014, Varna, Bulgaria, September 11-13, 2014. Proceedings. Dordrecht : Springer, 2014. С. 214-221. 
Artemova E. An approach to the problem of annotation of research publications, in: Proceedings of The Eighth International Conference on Web Search and Data Mining. New York : ACM, 2014. С. 429-434. 
Kashnitsky Y. Visual analytics in FCA-based triclustering, in: Supplementary Proceedings of the 3rd International Conference on Analysis of Images, Social Networks and Texts (AIST 2014). Ekaterinburg : CEUR Workshop Proceedings, 2014. С. 69-80.