• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Версия для слабовидящихЛичный кабинет сотрудника ВШЭПоискМеню

Хорошо интерпретируемые методы интеллектуального анализа данных и представление знаний

Приоритетные направления развития: математика
2018

Цель работы

Целью проекта является создание и исследование новых методов анализа данных для развития интеллектуальных систем, применяемых для решения прикладных задач в различных областях.

Объектом исследования являются методы, алгоритмы и программные средства майнинга и визуализации данных, онтологического моделирования, автоматической обработки текста и др. Предметом исследования являются такие характеристики методов и алгоритмов как границы применимости, качество и производительность с особым акцентом на интерпретируемости (объяснимости).

Используемые методы

Проект связан с исследованиями на стыке дискретной математики, информатики, компьютерной лингвистики и программной инженерии. Основной цикл получения новых научных результатов состоит из:

  • выдвижения предположений о закономерностях при обработке данных, возникающего в конкретных прикладных областях;
  • построения математической модели, отражающей эти закономерности;
  • разработки алгоритмов и реализующих их программных средств;
  • апробации программных средств при решении прикладных задач.

Фундаментальные результаты могут быть получены либо на втором этапе, когда изучение свойств математических моделей приводит к формулировке некоторых утверждений о конкретных классах моделей, либо после полного прохождения всего цикла и обобщении алгоритмов с формулировкой утверждений о некоторых характеристиках алгоритмов и их реализаций.

Почти всегда сначала используются модели анализа формальных понятий (АФП), кластеризации, машинного обучения, прикладной теории графов. Затем к ним добавляются контекстно-зависимые модели автоматической обработки текста или онтологического моделирования. Наконец, разработанные на базе некоторых моделей методы и алгоритмы реализуются в компонентах интеллектуальных систем, которые тестируются и внедряются в прикладных областях.

Полевых исследований в классическом понимании термина не проводится.

Эмпирическая база исследования

Для предварительного анализа предметных областей и последующего тестирования алгоритмов применяются наборы данных, извлечённых из библиотек научных статей, сервисов социальных сетей, историй болезни пациентов клинических центров- партнёров, банка данных PhysioBank проекта Physio Net (http://physionet.ecuore.org/physiobank/), репозитория UCI Machine Learning Repository (http://archive.ics.uci.edu/ml) и др.

Результаты работы

За период с декабря 2017 года по ноябрь 2018 года в рамках проекта опубликовано 29 научных работ. Основными результатами являются следующие.

  1. Обзор инструментов анализа данных в образовании, ориентированный на обоснование разработки системы поддержки адаптивного учебного процесса.
  2. Разработаны модели представления знаний для онтологически-базируемой системы поддержки адаптивного учебного процесса.
  3. Прототип системы поддержки адаптивного учебного процесса и смежных систем адаптивного оценивания c подсистемой автоматической генерации заданий.
  4. Анализ области роботизированной журналистики, ориентированный на разработку систем генерации новостей и комментариев к событиям, основанных на онтологически-контролируемых запросах к структурированным данным и коллекциям текстов.
  5. Развита математическая модель прогнозирования естественной истории развития рака молочной железы с учётом метастазирования.
  6. Разработаны новые алгоритмы построения гибридных рекомендательных систем с учётом контекста и профиля пользователя.
  7. Предложены новые варианты технологических стеков для анализа больших данных и построения рекомендательных систем.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Внедрение результатов исследования возможно в широком спектре областей, где актуален анализ наборов сложноструктурированных данных, зачастую требующий участия эксперта для интерпретации результатов (медицинская информатика, образование, социология, логистика, криминология и др.).

Применимость, эффективность, и корректность предлагаемых моделей и методов подтверждены сравнительным анализом, тестированием реализаций алгоритмов и результатами внедрения. Уровень внедрения отличается для различных методов и программных средств. Новые теоретические результаты в АФП, машинном обучении и обработке текста лежат в основе практически всех современных семантических технологий. Реализации предложенных методов были признаны хорошо интерпретируемыми специалистами в предметных областях.

Проведённое исследование даёт синергетический эффект при рассмотрении нескольких совместных международных проектов, которые ведёт международная научно-учебная лаборатория интеллектуальных систем и структурного анализа. Это позволяет внедрять модели и методы анализа данных совместно с НМИЦ ДГОИ им. Д. Рогачева, лабораторией Гемотест, подразделениями института образования НИУ ВШЭ, исследовательскими центрами LORIA и LIRIS во Франции, Университета Цюриха (Швейария) и другими партнёрами.

Публикации по проекту:


Galitsky B., Ilvovsky D. On a Chat Bot Finding Answers with Optimal Rhetoric Representation, in: Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017. Varna : INCOMA Ltd, 2017. С. 253-259. 
Dudyrev F., Neznanov A., Maksimenkova O. V. Providing Cognitive Scaffolding within Computer-Supported Adaptive Learning Environment for Material Science Education // Advances in Intelligent Systems and Computing. 2018. P. 1311-1315. 
Ignatov D. I. On closure operators related to maximal tricliques in tripartite hypergraphs // Discrete Applied Mathematics. 2018. Vol. 249. P. 74-84. doi
Galitsky B., Ilvovsky D., Kuznetsov S. Detecting logical argumentation in text via communicative discourse tree // Journal of Experimental and Theoretical Artificial Intelligence. 2018. Vol. 30. No. 5. P. 637-663. doi
Kuznetsov S., Makhalova T. On interestingness measures of formal concepts // Information Sciences. 2018. No. 442–443. P. 202-219. doi
Rubtsov V., Kamenshchikov M., Valyaev I., Leksin V., Ignatov D. I. A hybrid two-stage recommender system for automatic playlist continuation, in: 12th ACM Recommender Systems Challenge Workshop, RecSys Challenge 2018; Vancouver; Canada. Vancouver : ACM, 2018. С. 1-4. 
Andreeva E., Ignatov D. I., Grachev A., Savchenko A. Extraction of Visual Features for Recommendation of Products via Deep Learning, in: Proceedings of Analysis of Images, Social Networks and Texts – 7th International Conference, AIST 2018, Moscow, Russia, July 5-7, 2018, Revised Selected Papers. Lecture Notes in Computer Science. Berlin : Springer, 2018. С. 201-210. 
Ignatov D. I., Sinkov K., Spesivtsev P., Врабие И. В., Zyuzin V. Tree-Based Ensembles for Predicting the Bottomhole Pressure of Oil and Gas Well Flows, in: Proceedings of Analysis of Images, Social Networks and Texts – 7th International Conference, AIST 2018, Moscow, Russia, July 5-7, 2018, Revised Selected Papers. Lecture Notes in Computer Science. Berlin : Springer, 2018. С. 221-233. 
Kanovich M., Kuznetsov S., Nigam V., Scedrov A. A Logical Framework with Commutative and Non-commutative Subexponentials, in: 9TH INTERNATIONAL JOINT CONFERENCE ON AUTOMATED REASONING., 2018. С. 228-245. 
Alturki M. A., Kirigin T. B., Nigam V., Talcott C., Kanovich M., Scedrov A. Statistical Model Checking of Distance Fraud Attacks on the Hancke-Kuhn Family of Protocols, in: Proceedings of the 2018 Workshop on Cyber-Physical Systems Security and PrivaCy.: ACM, 2018. С. 60-71. 
Korepanova N. Subgroup Discovery for Treatment Optimization, in: Proceedings of the first Workshop on Data Analysis in Medicine (WDAM-2017).: EasyChair, 2018. С. 48-53. 
Kuznetsov S., Makhalova T., Napoli A. MDL for FCA: is there a place for background knowledge?, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at IJCAI/ECAI 2018).: CEUR-WS, 2018. 
Кузнецов С. О., Махалова Т. П., Napoli A. Как улучшить оценку множеств признаков с помощью принципа минимальной длины описания?, in: Шестнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2018 (24-27 сентября 2018 г., г. Москва, Россия). Труды конференции. В 2-х томах.. Москва , 2018. С. 19-26. 
Makarov I., Dmitry S., Boris L., Ignatov D. I. Predicting Winning Team and Probabilistic Ratings in Dota 2 and Counter-Strike: Global Offensive Video Games, in: Analysis of Images, Social Networks and Texts. 6th International Conference, 2017, Revised Selected Papers. Cham : Springer, 2018. С. 183-196. 
Maksimenkova O. V., Neznanov A., Papushina I. O., Parinov A. On mind maps evaluation: a case of an automatic grader development, in: Advances in Intelligent Systems and Computing. ICL 2017: Teaching and Learning in a Digital World., 2018. С. 210-221. 
Makhalova T., Napoli A., Kuznetsov S. A First Study on What MDL Can Do for FCA, in: CLA 2018: The 14th International Conference on Concept Lattices and Their Applications.: CEUR Workshop Proceedings, 2018. 
Ella Y. T. Consolidated mathematical growth Model of Breast Cancer CoMBreC, in: Proceedings of the first Workshop on Data Analysis in Medicine (WDAM-2017).: EasyChair, 2018. С. 19-42. 
Dudyrev F., Neznanov A., Maksimenkova O. V. Providing Cognitive Scaffolding Within Computer-Supported Adaptive Learning Environment for Material Science Education, in: The Challenges of the Digital Transformation in Education. Switzerland : Springer, 2019. С. 844-853.