• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Хорошо интерпретируемые методы интеллектуального анализа данных и представление знаний

Приоритетные направления развития: математика
2018

Цель работы

Целью проекта является создание и исследование новых методов анализа данных для развития интеллектуальных систем, применяемых для решения прикладных задач в различных областях.

Объектом исследования являются методы, алгоритмы и программные средства майнинга и визуализации данных, онтологического моделирования, автоматической обработки текста и др. Предметом исследования являются такие характеристики методов и алгоритмов как границы применимости, качество и производительность с особым акцентом на интерпретируемости (объяснимости).

Используемые методы

Проект связан с исследованиями на стыке дискретной математики, информатики, компьютерной лингвистики и программной инженерии. Основной цикл получения новых научных результатов состоит из:

  • выдвижения предположений о закономерностях при обработке данных, возникающего в конкретных прикладных областях;
  • построения математической модели, отражающей эти закономерности;
  • разработки алгоритмов и реализующих их программных средств;
  • апробации программных средств при решении прикладных задач.

Фундаментальные результаты могут быть получены либо на втором этапе, когда изучение свойств математических моделей приводит к формулировке некоторых утверждений о конкретных классах моделей, либо после полного прохождения всего цикла и обобщении алгоритмов с формулировкой утверждений о некоторых характеристиках алгоритмов и их реализаций.

Почти всегда сначала используются модели анализа формальных понятий (АФП), кластеризации, машинного обучения, прикладной теории графов. Затем к ним добавляются контекстно-зависимые модели автоматической обработки текста или онтологического моделирования. Наконец, разработанные на базе некоторых моделей методы и алгоритмы реализуются в компонентах интеллектуальных систем, которые тестируются и внедряются в прикладных областях.

Полевых исследований в классическом понимании термина не проводится.

Эмпирическая база исследования

Для предварительного анализа предметных областей и последующего тестирования алгоритмов применяются наборы данных, извлечённых из библиотек научных статей, сервисов социальных сетей, историй болезни пациентов клинических центров- партнёров, банка данных PhysioBank проекта Physio Net (http://physionet.ecuore.org/physiobank/), репозитория UCI Machine Learning Repository (http://archive.ics.uci.edu/ml) и др.

Результаты работы

За период с декабря 2017 года по ноябрь 2018 года в рамках проекта опубликовано 29 научных работ. Основными результатами являются следующие.

  1. Обзор инструментов анализа данных в образовании, ориентированный на обоснование разработки системы поддержки адаптивного учебного процесса.
  2. Разработаны модели представления знаний для онтологически-базируемой системы поддержки адаптивного учебного процесса.
  3. Прототип системы поддержки адаптивного учебного процесса и смежных систем адаптивного оценивания c подсистемой автоматической генерации заданий.
  4. Анализ области роботизированной журналистики, ориентированный на разработку систем генерации новостей и комментариев к событиям, основанных на онтологически-контролируемых запросах к структурированным данным и коллекциям текстов.
  5. Развита математическая модель прогнозирования естественной истории развития рака молочной железы с учётом метастазирования.
  6. Разработаны новые алгоритмы построения гибридных рекомендательных систем с учётом контекста и профиля пользователя.
  7. Предложены новые варианты технологических стеков для анализа больших данных и построения рекомендательных систем.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Внедрение результатов исследования возможно в широком спектре областей, где актуален анализ наборов сложноструктурированных данных, зачастую требующий участия эксперта для интерпретации результатов (медицинская информатика, образование, социология, логистика, криминология и др.).

Применимость, эффективность, и корректность предлагаемых моделей и методов подтверждены сравнительным анализом, тестированием реализаций алгоритмов и результатами внедрения. Уровень внедрения отличается для различных методов и программных средств. Новые теоретические результаты в АФП, машинном обучении и обработке текста лежат в основе практически всех современных семантических технологий. Реализации предложенных методов были признаны хорошо интерпретируемыми специалистами в предметных областях.

Проведённое исследование даёт синергетический эффект при рассмотрении нескольких совместных международных проектов, которые ведёт международная научно-учебная лаборатория интеллектуальных систем и структурного анализа. Это позволяет внедрять модели и методы анализа данных совместно с НМИЦ ДГОИ им. Д. Рогачева, лабораторией Гемотест, подразделениями института образования НИУ ВШЭ, исследовательскими центрами LORIA и LIRIS во Франции, Университета Цюриха (Швейария) и другими партнёрами.

Публикации по проекту:


Maksimenkova O. V., Neznanov A., Radchenko I. Collaborative Learning in Data Science Education: A Data Expedition as a Formative Assessment Tool, in: The Challenges of the Digital Transformation in Education. Switzerland : Springer, 2019. P. 14-25. doi
Dudyrev F., Neznanov A., Maksimenkova O. V. Providing Cognitive Scaffolding Within Computer-Supported Adaptive Learning Environment for Material Science Education, in: The Challenges of the Digital Transformation in Education. Switzerland : Springer, 2019. P. 844-853. doi
Galitsky B., Ilvovsky D., Kuznetsov S. Detecting logical argumentation in text via communicative discourse tree // Journal of Experimental and Theoretical Artificial Intelligence. 2018. Vol. 30. No. 5. P. 637-663. doi
Kanovich M., Kuznetsov S., Nigam V., Scedrov A. A Logical Framework with Commutative and Non-commutative Subexponentials, in: 9TH INTERNATIONAL JOINT CONFERENCE ON AUTOMATED REASONING Issue 10900. Springer International Publishing AG, part of Springer Nature 2018, 2018. doi P. 228-245. doi
Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at IJCAI/ECAI 2018) / Ed. by S. Kuznetsov, A. Napoli, S. Rudolph. Vol. 2149: CEUR Workshop Proceedings. CEUR-WS, 2018.
Maksimenkova O. V., Neznanov A., Papushina I. O., Parinov A. On mind maps evaluation: a case of an automatic grader development, in: Advances in Intelligent Systems and Computing. ICL 2017: Teaching and Learning in a Digital World. , 2018. doi P. 210-221. doi
Ignatov D. I., Sinkov K., Spesivtsev P., Врабие И. В., Zyuzin V. Tree-Based Ensembles for Predicting the Bottomhole Pressure of Oil and Gas Well Flows, in: Proceedings of Analysis of Images, Social Networks and Texts – 7th International Conference, AIST 2018, Moscow, Russia, July 5-7, 2018, Revised Selected Papers. Lecture Notes in Computer Science / Ed. by W. M. van der Aalst, V. Batagelj, G. Glavaš,, D. I. Ignatov, M. Khachay, O. Koltsova, S. Kuznetsov, I. A. Lomazova, N. Loukachevitch,, A. Napoli,, A. Savchenko, A. Panchenko,, P. M. Pardalos, M. Pelillo,. Vol. 11179. Berlin : Springer, 2018. doi P. 221-233. doi
Ignatov D. I. On closure operators related to maximal tricliques in tripartite hypergraphs // Discrete Applied Mathematics. 2018. Vol. 249. P. 74-84. doi
Makarov I., Dmitry Savostyanov, Boris Litvyakov, Ignatov D. I. Predicting Winning Team and Probabilistic Ratings in Dota 2 and Counter-Strike: Global Offensive Video Games, in: Analysis of Images, Social Networks and Texts. 6th International Conference, 2017, Lecture Notes in Computer Science, Revised Selected Papers / Ed. by W. M. van der Aalst, D. I. Ignatov, M. Khachay, S. Kuznetsov, V. Lempitsky, I. A. Lomazova, A. Napoli, A. Panchenko, P. M. Pardalos, A. V. Savchenko, S. Wasserman. Vol. 10716. Cham : Springer, 2018. doi P. 183-196. doi
Andreeva E., Ignatov D. I., Grachev A., Savchenko A. Extraction of Visual Features for Recommendation of Products via Deep Learning, in: Proceedings of Analysis of Images, Social Networks and Texts – 7th International Conference, AIST 2018, Moscow, Russia, July 5-7, 2018, Revised Selected Papers. Lecture Notes in Computer Science / Ed. by W. M. van der Aalst, V. Batagelj, G. Glavaš,, D. I. Ignatov, M. Khachay, O. Koltsova, S. Kuznetsov, I. A. Lomazova, N. Loukachevitch,, A. Napoli,, A. Savchenko, A. Panchenko,, P. M. Pardalos, M. Pelillo,. Vol. 11179. Berlin : Springer, 2018. doi P. 201-210. doi
Kuznetsov S., Makhalova T. On interestingness measures of formal concepts // Information Sciences. 2018. No. 442–443. P. 202-219. doi
Rubtsov V., Kamenshchikov M., Valyaev I., Leksin V., Ignatov D. I. A hybrid two-stage recommender system for automatic playlist continuation, in: 12th ACM Recommender Systems Challenge Workshop, RecSys Challenge 2018; Vancouver; Canada. Vancouver : ACM, 2018. Ch. 16. P. 1-4. doi
Dudyrev F., Neznanov A., Maksimenkova O. V. Providing Cognitive Scaffolding within Computer-Supported Adaptive Learning Environment for Material Science Education // Advances in Intelligent Systems and Computing. 2018. P. 1311-1315.
Ella Y Tyuryumina. Consolidated mathematical growth Model of Breast Cancer CoMBreC, in: Proceedings of the first Workshop on Data Analysis in Medicine (WDAM-2017) / Ed. by J. Baixeries, S. Boytcheva, O. Pianykh, A. Neznanov, S. Kuznetsov. Issue 6. EasyChair, 2018. doi Ch. 3. P. 19-42. doi
Korepanova N. Subgroup Discovery for Treatment Optimization, in: Proceedings of the first Workshop on Data Analysis in Medicine (WDAM-2017) / Ed. by J. Baixeries, S. Boytcheva, O. Pianykh, A. Neznanov, S. Kuznetsov. Issue 6. EasyChair, 2018. doi P. 48-53. doi
Galitsky B., Ilvovsky D. On a Chat Bot Finding Answers with Optimal Rhetoric Representation, in: Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017. Varna : INCOMA Ltd, 2017. P. 253-259. doi
Kuznetsov S., Makhalova T., Napoli A. MDL for FCA: is there a place for background knowledge?, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at IJCAI/ECAI 2018) / Ed. by S. Kuznetsov, A. Napoli, S. Rudolph. Vol. 2149: CEUR Workshop Proceedings. CEUR-WS, 2018.
Кузнецов С. О., Махалова Т. П., Napoli A. Как улучшить оценку множеств признаков с помощью принципа минимальной длины описания? // В кн.: Шестнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2018 (24-27 сентября 2018 г., г. Москва, Россия). Труды конференции. В 2-х томах. Т. 1. М. : РКП, 2018. С. 19-26.
Makhalova T., Napoli A., Kuznetsov S. A First Study on What MDL Can Do for FCA, in: CLA 2018: The 14th International Conference on Concept Lattices and Their Applications / Ed. by D. I. Ignatov, L. Nourine. CEUR Workshop Proceedings, 2018.
Supplementary Proceedings of the 7th International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2018), Moscow, Russia, July 5-7, 2018 / Ed. by W. van der Aalst,, V. Batagelj, G. Glavaš,, D. I. Ignatov, M. Khachay,, O. Koltsova,, S. Kuznetsov, I. A. Lomazova, N. Loukachevitch,, A. Napoli,, A. Savchenko, A. Panchenko,, P. M. Pardalos, M. Pelillo,. Aachen : CEUR Workshop Proceedings, 2018.
Proceedings 16th Russian Conference on Artificial Intelligence (RCAI 2018) / Ed. by S. Kuznetsov, G. Osipov, V. L. Stefanuk. Issue 934. Cham : Springer, 2018. doi
Alturki M. A., Kirigin T. B., Nigam V., Talcott C., Kanovich M., Scedrov A. Statistical Model Checking of Distance Fraud Attacks on the Hancke-Kuhn Family of Protocols, in: Proceedings of the 2018 Workshop on Cyber-Physical Systems Security and PrivaCy. ACM, 2018. P. 60-71. doi

См. также

Ключевые слова