• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Хорошо интерпретируемые методы интеллектуального анализа семантически насыщенных данных и их приложения

Приоритетные направления развития: математика
2017

Цель работы:

Целью проекта является создание и исследование новых методов анализа данных для развития интеллектуальных систем, применяемых для решения прикладных задач в различных областях.

Объектом исследования являются методы, алгоритмы и программные средства майнинга и визуализации данных, онтологического моделирования, автоматической обработки текста и др. Предметом исследования являются такие характеристики методов и алгоритмов как границы применимости, качество и производительность с особым акцентом на интерпретируемости (объяснимости).

Используемые методы:

Проект связан с исследованиями на стыке дискретной математики, информатики, компьютерной лингвистики и программной инженерии. Основной цикл получения новых научных результатов состоит из:

  • выдвижения предположений о закономерностях при обработке данных, возникающего в конкретных прикладных областях;
  • построения математической модели, отражающей эти закономерности;
  • разработки алгоритмов и реализующих их программных средств;
  • апробации программных средств при решении прикладных задач.

Фундаментальные результаты могут быть получены либо на втором этапе, когда изучение свойств математических моделей приводит к формулировке некоторых утверждений о конкретных классах моделей, либо после полного прохождения всего цикла и обобщении алгоритмов с формулировкой утверждений о некоторых характеристиках алгоритмов и их реализаций.

Почти всегда сначала используются модели анализа формальных понятий (АФП), кластеризации, машинного обучения, прикладной теории графов. Затем к ним добавляются контекстно-зависимые модели автоматической обработки текста или онтологического моделирования. Наконец, разработанные на базе некоторых моделей методы и алгоритмы реализуются в компонентах интеллектуальных систем, которые тестируются и внедряются в прикладных областях.

Полевых исследований в классическом понимании термина не проводится.

Эмпирическая база исследования:

Для тестов используются наборы данных извлечённых из библиотек научных статей, сервисов социальных сетей, историй болезни пациентов клинических центров, работ студентов НИУ ВШЭ, репозитория UCI Machine Learning Repository (http://archive.ics.uci.edu/ml) и др.

Результаты работы: 

За период с декабря 2016 года по ноябрь 2017 года в рамках проекта опубликовано 20 научных работ. Основными результатами являются следующие.

1. Новые алгоритмы анализа сходства текстовых фрагментов на основе синтактико-дискурсивных описаний.

2. Развитие моделей анализа релевантности текстов и их фрагментов на основе аннотированных суффиксных деревьев.

3. Развитие оригинальных методов классификации по запросу при решении задач клинической информатики, включая задачу оптимизации терапии при лечении онкологических заболеваний.

4. Развитие математической модели прогнозирования естественной истории развития рака молочной железы.

5. Реализация новых подходов к интерпретации и анализу замкнутых множеств признаков.

6. Исследование задач и методов анализа данных в адаптивном обучении.

7. Новые методы автоматизированной оценки учебных интеллект карт.

8. Новые стратегии и технологии развёртывания контейнерных узлов сбора данных из внешних источников данных.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Внедрение результатов исследования возможно в широком спектре областей, где актуален анализ наборов сложноструктурированных данных, зачастую требующий участия эксперта для интерпретации результатов (медицинская информатика, образование, социология, логистика, криминология и др.).

Применимость, эффективность, и корректность предлагаемых моделей и методов подтверждены сравнительным анализом, тестированием реализаций алгоритмов и результатами внедрения. Уровень внедрения отличается для различных методов и программных средств. Новые теоретические результаты в АФП, машинном обучении и обработке текста лежат в основе практически всех современных семантических технологий. Реализации предложенных методов были признаны хорошо интерпретируемыми специалистами в предметных областях.

Проведённое исследование даёт синергетический эффект при рассмотрении нескольких совместных международных проектов, которые ведёт международная научно-учебная лаборатория интеллектуальных систем и структурного анализа. Это позволяет внедрять модели и методы анализа данных совместно с НМИЦ ДГОИ им. Д. Рогачева, лабораторией Гемотест, исследовательскими центрами LORIA и LIRIS во Франции, политехническим университетом Дрездена в Германии и другими партнёрами.

Публикации по проекту:


Korepanova N., Kuznetsov S. Pattern Structures for Risk Group Identification, in: Formal Concept Analysis for Knowledge Discovery. Proceedings of International Workshop on Formal Concept Analysis for Knowledge Discovery (FCA4KD 2017), Moscow, Russia, June 1, 2017. / Ed. by S. Kuznetsov, B. W. Watson. Vol. 1921. CEUR-WS.org, 2017. P. 13-21.
Kanovich M., Scedrov A., Kirigin T. B., Nigam V., Talcott C. Time, computational complexity, and probability in the analysis of distance-bounding protocols // Journal of Computer Security. 2017. Vol. 25. No. 6. P. 585-630. doi
Ella Y Tyuryumina, Neznanov A. On Consolidated Predictive Model of the Natural History of Breast Cancer Considering Primary Tumor and Primary Distant Metastases Growth, in: 2017 IEEE International Conference on Healthcare Informatics. IEEE Computer Society, 2017. doi P. 484-489. doi
Ella Y Tyuryumina, Neznanov A. On Consolidated Predictive Model of the Natural History of Breast Cancer: Primary Tumor and Secondary Metastases in Patients with Lymph Nodes Metastases, in: Proceedings of the 2017 International Conference on Digital Health. NY : Association for Computing Machinery (ACM), 2017. doi P. 60-66. doi
Kanovich M., Scedrov A., Kuznetsov S. Undecidability of the Lambek Calculus with Subexponential and Bracket Modalities, in: 21st International Symposium, Fundamentals of Computation Theory 2017, FCT 2017. Springer, 2017. doi P. 326-340. doi
Alexey Neznanov. New Reality in Clinical Informatics and Explanation-oriented Methods of Data Analysis, in: Proceedings of the first Workshop on Data Analysis in Medicine (WDAM-2017) / Ed. by J. Baixeries, S. Boytcheva, O. Pianykh, A. Neznanov, S. Kuznetsov. Issue 6. EasyChair, 2018. doi P. 43-47. doi
Kanovich M., Kuznetsov S., Scedrov A., Morrill G. A Polynomial-Time Algorithm for the Lambek Calculus with Brackets of Bounded Order, in: Second International Conference on Formal Structures for Computation and Deduction, FSCD 2017 Vol. 84: 2nd International Conference on Formal Structures for Computation and Deduction (FSCD 2017). , 2017. P. 22:1-22:17. doi
Makarov I., Konoplya O., Pavel Polyakov, Maxim Martynov, Zyuzin P., Gerasimova O., Bodishtianu Valeria. Adapting First-Person Shooter Video Game for Playing with Virtual Reality Headsets, in: Proceedings of the Thirtieth International Florida Artificial Intelligence Research Society Conference, FLAIRS 2017, Marco Island, Florida, USA, May 22-24, 2017. AAAI Press 2017, ISBN 978-1-57735-787-2. Palo Alto : AAAI Press, 2017. P. 412-415.
Ignatov D. I., Semenov A., Комиссарова Д. В., Gnatyshak D. V. Multimodal Clustering for Community Detection, in: Formal Concept Analysis of Social Networks / Ed. by R. Missaoui, S. Kuznetsov, S. Obiedkov. Springer, 2017. doi Ch. 4. P. 59-96. doi
Kanovich M., Brotherston J., Gorogiannis N. Biabduction (and Related Problems) in Array Separation Logic, in: 26th International Conference on Automated Deduction – CADE 26. Springer, 2017. doi P. 472-490. doi
Galitsky B., Ilvovsky D. Chatbot with a Discourse Structure-Driven Dialogue Management, in: Proceedings of the Software Demonstrations of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2017. P. 87-90.
Kanovich M., Kirigin T. B., Nigam V., Scedrov A., Talcott C., Perovic R. A rewriting framework and logic for activities subject to regulations // Mathematical Structures in Computer Science. 2017. Vol. 27. No. 3. P. 332-375. doi
Borchmann D., Hanika T., Obiedkov S. On the Usability of Probably Approximately Correct Implication Bases, in: Formal Concept Analysis: 14th International Conference, ICFCA 2017, Rennes, France, June 13-16, 2017, Proceedings Vol. 10308. Cham : Springer, 2017. doi P. 72-88. doi
Shishkova A., Chernyak E. L. Annotated Suffix Tree Method for German Compound Splitting, in: CLLS 2016. Computational Linguistics and Language Science. Proceedings of the Workshop on Computational Linguistics and Language Science. Moscow, Russia, April 26, 2016 / Ed. by E. L. Chernyak, D. Ilvovsky, D. Skorinkin, A. Vybornova. Vol. 1886. Aachen : CEUR Workshop Proceedings, 2017. P. 42-47.
Masyutin A., Kashnitsky Y. Query-Based Versus Tree-Based Classification: Application to Banking Data, in: Foundations of Intelligent Systems. Warsz. : Springer, 2017. P. 664-673. doi
Ignatov D. I. On closure operators related to maximal tricliques in tripartite hypergraphs // Discrete Applied Mathematics. 2017. P. 1-28.
Maksimenkova O. V., Neznanov A., Skryabin M. On MOOCs Quality Estimation : a Case of Modern Nonparametric Superiority and Noninferiority Statistical Tests, in: eLearning Stakeholders and Researchers Summit 2017. Материалы международной конференции / Отв. ред.: Е. Ю. Кулик, У. Кускин. М. : Национальный исследовательский университет "Высшая школа экономики", 2017. doi P. 165-174.
Papushina I. O., Maksimenkova O. V., Kolomiets A. Digital Educational Mind Maps: a Computer Supported Collaboratvie Learning Practice on Marketing Master Program, in: Advances in Intelligent Systems and Computing. Interactive Collaborative Learning Proceedings of the 19th ICL Conference Vol. 1. NY : Springer, 2016. doi P. 17-30. doi
Belfodil A., Kuznetsov S., Robardet C., Kaytoue M. Mining convex polygon patterns with formal Concept Analysis, in: Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI 2017,Melbourne, Australia, 19-25 August 2017. Melbourne : International Joint Conferences on Artificial Intelligence, 2017. P. 1425-1432. doi
Egurnov D., Ignatov D. I., MEPHU NGUIFO E. On Containment of Triclusters Collections Generated by Quantified Box Operators, in: 23rd International Symposium on Methodologies for Intelligent Systems - Proceedings. Birkhauser/Springer, 2017. doi P. 573-579.
Makhalova T., Kuznetsov S. On Overfitting of Classifiers Making a Lattice, in: Formal Concept Analysis: 14th International Conference, ICFCA 2017, Rennes, France, June 13-16, 2017, Proceedings Vol. 10308. Cham : Springer, 2017. doi P. 184-197.
Пономарева М. А., Milintsevich K., Chernyak E. L., Starostin A. Automated Word Stress Detection in Russian, in: Proceedings of the First Workshop on Subword and Character Level Models in NLP. Stroudsburg, PA : Association for Computational Linguistics, 2017. P. 31-35.
Babin M. A., Kuznetsov S. Dualization in lattices given by ordered sets of irreducibles // Theoretical Computer Science. 2017. Vol. Volume 658, Part B. No. 7 January. P. 316-326. doi
Chernyak E. L. Comparison of String Similarity Measures for Obscenity Filtering, in: Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Stroudsburg, PA : The Association for Computational Linguistics, 2017. P. 97-101.
Максим Ю., Ignatov D. I. Turning Krimp into a Triclustering Technique on Sets of Attribute-Condition Pairs that Compress // Lecture Notes in Computer Science. 2017. Vol. 10314. P. 558-569. doi
Zakharyaschev M., BRESOLIN D., KURUCZ A., MUÑOZ-VELASCO E., RYZHIKOV V., SCIAVICCO G. Horn fragments of the Halpern-Shoham interval temporal logic, in: ACM Transactions on Computational Logic (TOCL) Vol. 18. Issue 3. NY : ACM, 2017. P. 1-39. doi
Maksimenkova O. V., Neznanov A., Papushina I. O., Parinov A. On mind maps evaluation: a case of an automatic grader development // Advances in Intelligent Systems and Computing. 2018. Vol. 2. P. 210-221.
Makarov I., Bulanov O., Zhukov L. E. Co-author Recommender System, in: Models, Algorithms, and Technologies for Network Analysis. Springer Proceedings in Mathematics & Statistics / Ed. by V. A. Kalyagin, A. I. Nikolaev, P. M. Pardalos, O. Prokopyev . Vol. 197. Springer, 2017. doi P. 251-257. doi

См. также

Ключевые слова