• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Майнинг сложноструктурированных данных и семантические технологии

Приоритетные направления развития: математика
2016

Цель работы:

Целью проекта является создание новых и развитие ранее предложенных математических моделей, алгоритмов и программных средств интеллектуального анализа сложноструктурированных данных, включая анализ текстов на естественном языке и анализ сетей, машинное обучение в задачах классификации объектов с нечисловым описанием и др. Разработанные методы и алгоритмы, реализованные в виде компонентов интеллектуальных систем, должны найти применение в решении прикладных задач.

Таким образом, объектом исследования являются методы, алгоритмы и программные средства майнинга и визуализации данных, онтологического моделирования, автоматической обработки текста и др. Предметом исследования являются такие характеристики методов и алгоритмов как границы применимости, качество и производительность.

Используемые методы:

Проект связан с исследованиями на стыке дискретной математики, информатики, компьютерной лингвистики и программной инженерии. Основной цикл получения новых научных результатов состоит из:

  • выдвижения предположений о закономерностях при обработке некоторого вида данных, возникающего в конкретных прикладных областях;
  • построения математической модели, отражающей эти закономерности;
  • разработки алгоритмов и реализующих их программных средств;
  • апробации программных средств при решении прикладных задач.

Фундаментальные результаты могут быть получены либо на втором этапе, когда изучение свойств математических моделей приводит к формулировке некоторых утверждений о конкретных классах моделей, либо после полного прохождения всего цикла и обобщении алгоритмов с формулировкой утверждений о некоторых характеристиках алгоритмов и их реализаций.

Почти всегда сначала используются модели анализа формальных понятий (АФП), кластеризации, машинного обучения, прикладной теории графов. Затем к ним добавляются контекстно-зависимые модели автоматической обработки текста или онтологического моделирования. Наконец, разработанные на базе некоторых моделей методы и алгоритмы реализуются в компонентах интеллектуальных систем, которые тестируются и внедряются в прикладных областях.

Полевых исследований в классическом понимании термина не проводится.

Эмпирическая база исследования:

Для тестов используются наборы данных из UCI Machine Learning Repository (http://archive.ics.uci.edu/ml), Интернет-сервиса MovieLens (https://movielens.org), сервисов социальных сетей и др.

Результаты работы:  

За период с декабря 2015 года по ноябрь 2016 года в рамках проекта опубликовано 26 работ. Основными результатами являются следующие.

  1. Новые методы машинного обучения в виде алгоритмов классификации по запросу для объектов со сложным описанием (когда атрибуты объектов представлены в виде интервалов, последовательностей, графов, ...). Методы основаны на использовании узорных структур для формализации описаний объектов.
  2. Новые методы коллаборативной фильтрации с агрегацией мер сходства объектов.
  3. Новые алгоритмы анализа сходства текстовых фрагментов на основе синтактико-дискурсивных описаний.
  4. Использование оригинальных методов классификации по запросу при решении задач клинической информатики, включая задачу оптимизации терапии при лечении онкологических заболеваний.
  5. Новые модели прогнозирования естественной истории развития рака молочной железы.
  6. Исследование задач и методов анализа данных в образовании.
  7. Реализация новых подсистем предобработки данных в системе Formal Concept Research Analysis Research Toolbox (FCART). Подсистемы ориентированы на работу с большими коллекциями текстов.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Внедрение результатов исследования возможно в широком спектре областей, где актуален анализ наборов сложноструктурированных данных, зачастую требующий участия эксперта (медицинская информатика, образование, социология, логистика, криминология и др.).

Применимость, эффективность, и корректность предлагаемых моделей и методов подтверждены сравнительным анализом, тестированием реализаций алгоритмов и результатами внедрения. Уровень внедрения отличается для различных методов и программных средств. Новые теоретические результаты в АФП, машинном обучении и обработке текста лежат в основе практически всех примеров семантических технологий. Новые функции FCART активно используются в проекте по анализу электронных библиотек.

Проведённое исследование даёт синергетический эффект при рассмотрении нескольких совместных международных проектов, которые ведёт международная научно-учебная лаборатория интеллектуальных систем и структурного анализа. Это позволяет внедрять модели и методы анализа данных совместно с ФНКЦ ДГОИ им. Д. Рогачева, исследовательскими центрами LORIA и LIRIS во Франции, политехническим университетом Дрездена в Германии.

Публикации по проекту:


Бочаров А. А., Gnatyshak D. V., Ignatov D. I., Mirkin B., Shestakoff A. A Lattice-based Consensus Clustering Algorithm, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings / Ed. by M. Huchard, S. Kuznetsov. Vol. 1624. M. : Higher School of Economics, National Research University, 2016. P. 45-56.
Chernyak E. L., Ilvovsky D. Annotated suffix trees for text clustering, in: The 3d International Workshop on Concept Discovery in Unstructured Data (CDUD 2016). Proceedings of the Third Workshop on Concept Discovery in Unstructured Data co-located with the 13th International Conference on Concept Lattices and Their Applications (CLA 2016), Moscow, Russia, July 18, 2016. CEUR Workshop Proceedings Vol. 1625. Aachen : CEUR Workshop Proceedings, 2016. P. 25-31.
Parinov A., Neznanov A. Unified External Data Access Implementation in Formal Concept Analysis Research Toolbox, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings / Ed. by M. Huchard, S. Kuznetsov. Vol. 1624. M. : Higher School of Economics, National Research University, 2016. P. 285-296.
Galitsky B., Ilvovsky D., Chernyak E. L., Kuznetsov S. Style and Genre Classification by Means of Deep Textual Parsing, in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва,1–4 июля 2016 г.) / Под общ. ред.: В. Селегей. Вып. 15. М. : Изд-во РГГУ, 2016. P. 171-181.
Natalia V. Korepanova, Sergei O. Kuznetsov. Pattern Structures for Treatment Optimization, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings / Ed. by M. Huchard, S. Kuznetsov. Vol. 1624. M. : Higher School of Economics, National Research University, 2016. P. 217-229.
Корепанова Н. В., Кузнецов С. О. Выбор терапии онкологического заболевания в подгруппах пациентов на основе анализа замкнутых описаний // В кн.: Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016г., г.Смоленск, Россия): Труды конференции Т. 1. Смоленск : Универсум, 2016. С. 352-359.
Родин И. В., Chernyak E. L., Dubov M., Mirkin B. Visualization of Dynamic Reference Graphs, in: Proceedings of TextGraphs-10: the Workshop on Graph-based Methods for Natural Language Processing. Stroudsburg, PA : Association for Computational Linguistics, 2016. P. 34-38.
Kashnitsky Y., Kuznetsov S. Interval Pattern Concept Lattice as a Classifier Ensemble, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at ECAI 2016) / Ed. by Sergei O. Kuznetsov, Napoli Amedeo, S. Rudolph. M. : , 2016. P. 105-112.
Ignatov D. I., Nikolenko S. I., Abaev T., Poelmans J. Online recommender system for radio station hosting based on information fusion and adaptive tag-aware profiling // Expert Systems with Applications. 2016. Vol. 55. P.  546-558. doi
Galitsky B., Ilvovsky D. Discovering disinformation: discourse-level approach, in: Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016г., г.Смоленск, Россия): Труды конференции Т. 1. Смоленск : Универсум, 2016. Ch. 2. P. 23-32.
Kashnitsky Y., Kuznetsov S. Global Optimization in Learning with Important Data: an FCA-Based Approach, in: CLA 2016: Proceedings of the Thirteenth International Conference on Concept Lattices and Their Applications. CEUR Workshop Proceedings / Ed. by M. Huchard, S. Kuznetsov. Vol. 1624. M. : Higher School of Economics, National Research University, 2016. Ch. 19. P. 189-202.
Neznanov A., Parinov A. Distributed Architecture of Data Analysis System based on Formal Concept Analysis Approach, in: Intelligent Distributed Computing IX. Springer, 2015. P. 265-271.
Greene G. J., Dunaiski M., Fischer B., Ilvovsky D., Kuznetsov S. Browsing publication data using tag clouds over concept lattices constructed by key-phrase extraction, in: RuZA 2015 Workshop. Proceedings of Russian and South African Workshop on Knowledge Discovery Techniques Based on Formal Concept Analysis (RuZA 2015). November 30 - December 5, 2015, Stellenbosch, South Africa / Ed. by S. Kuznetsov, B. W. Watson. Vol. 1552. Aachen : CEUR Workshop Proceedings, 2015. P. 10-22.
Galitsky B., Ilvovsky D. Выявление искаженной информации: подход с использованием дискурсивных связей, in: Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016 (3-7 октября 2016г., г.Смоленск, Россия): Труды конференции Т. 1. Смоленск : Универсум, 2016. P. 23-32.
Kashnitsky Y. Lazy Learning of Succinct Classification Rules for Complex Structure Data, in: Supplementary Proceedings of the 5th International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2016), Yekaterinburg, Russia, April 7-9, 2016. / Ed. by D. I. Ignatov. Vol. 1710. Aachen : CEUR Workshop Proceedings, 2016. Ch. 8. P. 73-84.
Neznanov A., Parinov A. Full-text Search in Intermediate Data Storage of FCART, in: RuZA 2015 Workshop. Proceedings of Russian and South African Workshop on Knowledge Discovery Techniques Based on Formal Concept Analysis (RuZA 2015). November 30 - December 5, 2015, Stellenbosch, South Africa / Ed. by S. Kuznetsov, B. W. Watson. Vol. 1552. Aachen : CEUR Workshop Proceedings, 2015.
Bernhard Ganter, Obiedkov S. Conceptual Exploration. Berlin, Heidelberg : Springer, 2016. doi
Бобриков В. В., Ненова Е. Н., Ignatov D. I. What is a Fair Value of Your Recommendation List?, in: Proceedings of the Third Workshop on Experimental Economics and Machine Learning (EEML 2016), Moscow, Russia, July 18, 2016 / Ed. by R. Tagiew, D. I. Ignatov, A. Hilbert, R. Delhibabu. Vol. 1627. Aachen : CEUR Workshop Proceedings, 2016. P. 1-12.
Kanovich M., Scedrov A., Kuznetsov S. Undecidability of the Lambek calculus with a relevant modality, in: The 21st Conference on Formal Grammar. Springer, 2016. P. 240-256. doi
Ilvovsky D., Chernyak E. L. Visualisation of Russian newspaper corpus by means of reference graphs, in: RuZA 2015 Workshop. Proceedings of Russian and South African Workshop on Knowledge Discovery Techniques Based on Formal Concept Analysis (RuZA 2015). November 30 - December 5, 2015, Stellenbosch, South Africa / Ed. by S. Kuznetsov, B. W. Watson. Vol. 1552. Aachen : CEUR Workshop Proceedings, 2015. P. 1-9.
Proceedings of TextGraphs-10: the Workshop on Graph-based Methods for Natural Language Processing. Stroudsburg, PA : Association for Computational Linguistics, 2016.
Scedrov A., Barthe G., Fagerholm E., Fiore D., Schmidt B., Tibouchi M. Strongly-Optimal Structure Preserving Signatures from Type II Pairings: Synthesis and Lower Bounds // IET Information Security. 2016. P. 358-371. doi
Kanovich M., Kuznetsov S., Scedrov A. On Lambek’s Restriction in the Presence of Exponential Modalities, in: Symposium on Logical Foundations of Computer Science (LFCS 2016) Vol. 9537: Logical Foundations of Computer Science. Springer, 2016. doi P. 146-158. doi
Wohlgenannt G., Chernyak E. L., Ilvovsky D. Extracting social networks from literary text with word embedding tools, in: Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH). Osaka : , 2016. Ch. 4. P. 18-26.
Scedrov A., Kanovich M., Kirigin T. B., Nigam V., Talcott C. Timed Multiset Rewriting and the Verification of Time-Sensitive Distributed Systems, in: 14th International Conference on Formal Modelling and Analysis of Timed Systems (Formats 2016). , 2016. P. 228-244. doi
Buzmakov A. V., Egho E., Jay N., Kuznetsov S., Napoli A., Raissi C. On mining complex sequential data by means of FCA and pattern structures // International Journal of General Systems. 2016. Vol. 45. No. 2. P. 135-159. doi

См. также

Ключевые слова