• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Майнинг сложноструктурированных данных и семантические технологии

Приоритетные направления развития: математика
2016

Цель работы:

Целью проекта является создание новых и развитие ранее предложенных математических моделей, алгоритмов и программных средств интеллектуального анализа сложноструктурированных данных, включая анализ текстов на естественном языке и анализ сетей, машинное обучение в задачах классификации объектов с нечисловым описанием и др. Разработанные методы и алгоритмы, реализованные в виде компонентов интеллектуальных систем, должны найти применение в решении прикладных задач.

Таким образом, объектом исследования являются методы, алгоритмы и программные средства майнинга и визуализации данных, онтологического моделирования, автоматической обработки текста и др. Предметом исследования являются такие характеристики методов и алгоритмов как границы применимости, качество и производительность.

Используемые методы:

Проект связан с исследованиями на стыке дискретной математики, информатики, компьютерной лингвистики и программной инженерии. Основной цикл получения новых научных результатов состоит из:

  • выдвижения предположений о закономерностях при обработке некоторого вида данных, возникающего в конкретных прикладных областях;
  • построения математической модели, отражающей эти закономерности;
  • разработки алгоритмов и реализующих их программных средств;
  • апробации программных средств при решении прикладных задач.

Фундаментальные результаты могут быть получены либо на втором этапе, когда изучение свойств математических моделей приводит к формулировке некоторых утверждений о конкретных классах моделей, либо после полного прохождения всего цикла и обобщении алгоритмов с формулировкой утверждений о некоторых характеристиках алгоритмов и их реализаций.

Почти всегда сначала используются модели анализа формальных понятий (АФП), кластеризации, машинного обучения, прикладной теории графов. Затем к ним добавляются контекстно-зависимые модели автоматической обработки текста или онтологического моделирования. Наконец, разработанные на базе некоторых моделей методы и алгоритмы реализуются в компонентах интеллектуальных систем, которые тестируются и внедряются в прикладных областях.

Полевых исследований в классическом понимании термина не проводится.

Эмпирическая база исследования:

Для тестов используются наборы данных из UCI Machine Learning Repository (http://archive.ics.uci.edu/ml), Интернет-сервиса MovieLens (https://movielens.org), сервисов социальных сетей и др.

Результаты работы:  

За период с декабря 2015 года по ноябрь 2016 года в рамках проекта опубликовано 26 работ. Основными результатами являются следующие.

  1. Новые методы машинного обучения в виде алгоритмов классификации по запросу для объектов со сложным описанием (когда атрибуты объектов представлены в виде интервалов, последовательностей, графов, ...). Методы основаны на использовании узорных структур для формализации описаний объектов.
  2. Новые методы коллаборативной фильтрации с агрегацией мер сходства объектов.
  3. Новые алгоритмы анализа сходства текстовых фрагментов на основе синтактико-дискурсивных описаний.
  4. Использование оригинальных методов классификации по запросу при решении задач клинической информатики, включая задачу оптимизации терапии при лечении онкологических заболеваний.
  5. Новые модели прогнозирования естественной истории развития рака молочной железы.
  6. Исследование задач и методов анализа данных в образовании.
  7. Реализация новых подсистем предобработки данных в системе Formal Concept Research Analysis Research Toolbox (FCART). Подсистемы ориентированы на работу с большими коллекциями текстов.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Внедрение результатов исследования возможно в широком спектре областей, где актуален анализ наборов сложноструктурированных данных, зачастую требующий участия эксперта (медицинская информатика, образование, социология, логистика, криминология и др.).

Применимость, эффективность, и корректность предлагаемых моделей и методов подтверждены сравнительным анализом, тестированием реализаций алгоритмов и результатами внедрения. Уровень внедрения отличается для различных методов и программных средств. Новые теоретические результаты в АФП, машинном обучении и обработке текста лежат в основе практически всех примеров семантических технологий. Новые функции FCART активно используются в проекте по анализу электронных библиотек.

Проведённое исследование даёт синергетический эффект при рассмотрении нескольких совместных международных проектов, которые ведёт международная научно-учебная лаборатория интеллектуальных систем и структурного анализа. Это позволяет внедрять модели и методы анализа данных совместно с ФНКЦ ДГОИ им. Д. Рогачева, исследовательскими центрами LORIA и LIRIS во Франции, политехническим университетом Дрездена в Германии.

Публикации по проекту:


Greene G. J., Dunaiski M., Fischer B., Ilvovsky D., Kuznetsov S. Browsing publication data using tag clouds over concept lattices constructed by key-phrase extraction, in: RuZA 2015 Workshop. Proceedings of Russian and South African Workshop on Knowledge Discovery Techniques Based on Formal Concept Analysis (RuZA 2015). November 30 - December 5, 2015, Stellenbosch, South Africa. Aachen : CEUR Workshop Proceedings, 2015. С. 10-22. 
Ilvovsky D., Artemova E. Visualisation of Russian newspaper corpus by means of reference graphs, in: RuZA 2015 Workshop. Proceedings of Russian and South African Workshop on Knowledge Discovery Techniques Based on Formal Concept Analysis (RuZA 2015). November 30 - December 5, 2015, Stellenbosch, South Africa. Aachen : CEUR Workshop Proceedings, 2015. С. 1-9. 
Neznanov A., Parinov A. Distributed Architecture of Data Analysis System based on Formal Concept Analysis Approach, in: Intelligent Distributed Computing IX.: Springer International Publishing, 2015. С. 265-271. 
Neznanov A., Parinov A. Full-text Search in Intermediate Data Storage of FCART, in: RuZA 2015 Workshop. Proceedings of Russian and South African Workshop on Knowledge Discovery Techniques Based on Formal Concept Analysis (RuZA 2015). November 30 - December 5, 2015, Stellenbosch, South Africa. Aachen : CEUR Workshop Proceedings, 2015. 
Conceptual Exploration. Berlin : Springer, 2016. 
Buzmakov A. V., Egho E., Jay Nicolas, Kuznetsov S., Napoli A., Raissi C. On mining complex sequential data by means of FCA and pattern structures // International Journal of General Systems. 2016. Vol. 45. No. 2. P. 135-159. doi
Scedrov A., Barthe G., Fagerholm E., Fiore D., Schmidt B., Tibouchi M. Strongly-Optimal Structure Preserving Signatures from Type II Pairings: Synthesis and Lower Bounds // IET Information Security. 2016. P. 358-371. doi
Proceedings of TextGraphs-10: the Workshop on Graph-based Methods for Natural Language Processing. Stroudsburg, PA : Association for Computational Linguistics, 2016. 
Бочаров А. А., Gnatyshak D. V., Ignatov D. I., Mirkin B., Shestakoff A. A Lattice-based Consensus Clustering Algorithm, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings. Moscow : Higher School of Economics, National Research University, 2016. С. 45-56. 
Бобриков В. В., Ненова Е. Н., Ignatov D. I. What is a Fair Value of Your Recommendation List?, in: Proceedings of the Third Workshop on Experimental Economics and Machine Learning (EEML 2016), Moscow, Russia, July 18, 2016. Aachen : CEUR Workshop Proceedings, 2016. С. 1-12. 
Galitsky B., Ilvovsky D. Discovering disinformation: discourse-level approach, in: Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016г., г.Смоленск, Россия): Труды конференции. Smolensk : Универсум, 2016. С. 23-32. 
Galitsky B., Ilvovsky D., Artemova E., Kuznetsov S. Style and Genre Classification by Means of Deep Textual Parsing, in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва,1–4 июля 2016 г.). Moscow : Изд-во РГГУ, 2016. С. 171-181. 
Galitsky B., Ilvovsky D. Выявление искаженной информации: подход с использованием дискурсивных связей, in: Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016г., г.Смоленск, Россия): Труды конференции. Smolensk : Универсум, 2016. С. 23-32. 
Kanovich M., Kuznetsov S., Scedrov A. On Lambek’s Restriction in the Presence of Exponential Modalities, in: Symposium on Logical Foundations of Computer Science (LFCS 2016).: Springer International Publishing, 2016. С. 146-158. 
Kanovich M., Scedrov A., Kuznetsov S. Undecidability of the Lambek calculus with a relevant modality, in: The 21st Conference on Formal Grammar.: Springer Verlag, 2016. С. 240-256. 
Kashnitsky Y., Kuznetsov S. Global Optimization in Learning with Important Data: an FCA-Based Approach, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings. Moscow : Higher School of Economics, National Research University, 2016. С. 189-202. 
Kashnitsky Y., Kuznetsov S. Interval Pattern Concept Lattice as a Classifier Ensemble, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at ECAI 2016). Moscow , 2016. С. 105-112. 
Kashnitsky Y. Lazy Learning of Succinct Classification Rules for Complex Structure Data, in: Supplementary Proceedings of the 5th International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2016), Yekaterinburg, Russia, April 7-9, 2016.. Aachen : CEUR Workshop Proceedings, 2016. С. 73-84. 
Natalia V. K., Sergei O. K. Pattern Structures for Treatment Optimization, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings. Moscow : Higher School of Economics, National Research University, 2016. С. 217-229. 
Корепанова Н. В., Кузнецов С. О. Выбор терапии онкологического заболевания в подгруппах пациентов на основе анализа замкнутых описаний, in: Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016г., г.Смоленск, Россия): Труды конференции. Смоленск : Универсум, 2016. С. 352-359. 
Parinov A., Neznanov A. Unified External Data Access Implementation in Formal Concept Analysis Research Toolbox, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings. Moscow : Higher School of Economics, National Research University, 2016. С. 285-296. 
Родин И. В., Artemova E., Dubov M., Mirkin B. Visualization of Dynamic Reference Graphs, in: Proceedings of TextGraphs-10: the Workshop on Graph-based Methods for Natural Language Processing. Stroudsburg, PA : Association for Computational Linguistics, 2016. С. 34-38. 
Artemova E., Ilvovsky D. Annotated suffix trees for text clustering, in: The 3d International Workshop on Concept Discovery in Unstructured Data (CDUD 2016). Proceedings of the Third Workshop on Concept Discovery in Unstructured Data co-located with the 13th International Conference on Concept Lattices and Their Applications (CLA 2016), Moscow, Russia, July 18, 2016. CEUR Workshop Proceedings. Aachen : CEUR Workshop Proceedings, 2016. С. 25-31. 
Wohlgenannt G., Artemova E., Ilvovsky D. Extracting social networks from literary text with word embedding tools, in: Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH). Osaka , 2016. С. 18-26. 
Scedrov A., Kanovich M., Kirigin T. B., Nigam V., Talcott C. Timed Multiset Rewriting and the Verification of Time-Sensitive Distributed Systems, in: 14th International Conference on Formal Modelling and Analysis of Timed Systems (Formats 2016)., 2016. С. 228-244.