• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Приобретение и представление знаний для рекомендательных систем

Приоритетные направления развития: компьютерно-математическое
2019
Руководитель: Кузнецов Сергей Олегович, Щедров Андре

Цель работы

Целью проекта является создание и исследование новых методов анализа данных для развития интеллектуальных систем, применяемых для решения прикладных задач в различных областях.

Объектом исследования являются методы, алгоритмы и программные средства майнинга и визуализации данных, онтологического моделирования, автоматической обработки текста и др. Предметом исследования являются такие характеристики методов и алгоритмов как границы применимости, качество и производительность с особым акцентом на интерпретируемости (объяснимости).

Используемые методы

Проект связан с исследованиями на стыке дискретной математики, информатики, компьютерной лингвистики и программной инженерии. Основной цикл получения новых научных результатов состоит из:

  • выдвижения предположений о закономерностях при обработке данных, возникающего в конкретных прикладных областях;

  • построения математической модели, отражающей эти закономерности;

  • разработки алгоритмов и реализующих их программных средств;

  • апробации программных средств при решении прикладных задач.

Фундаментальные результаты могут быть получены либо на втором этапе, когда изучение свойств математических моделей приводит к формулировке некоторых утверждений о конкретных классах моделей, либо после полного прохождения всего цикла и обобщении алгоритмов с формулировкой утверждений о некоторых характеристиках алгоритмов и их реализаций.

Почти всегда сначала используются модели анализа формальных понятий (АФП), кластеризации, машинного обучения, прикладной теории графов. Затем к ним добавляются контекстно-зависимые модели автоматической обработки текста или онтологического моделирования. Наконец, разработанные на базе некоторых моделей методы и алгоритмы реализуются в компонентах интеллектуальных систем, которые тестируются и внедряются в прикладных областях.

Полевых исследований в классическом понимании термина не проводится.

Эмпирическая база исследования

Для предварительного анализа предметных областей и последующего тестирования алгоритмов применяются наборы данных, извлечённых из библиотек научных статей, сервисов социальных сетей, историй болезни пациентов клинических центров- партнёров, данных о научном сотрудничестве сотрудников НИУ ВШЭ, текстов проектов Internet Argument Corpus и FactBank, репозитория UCI Machine Learning Repository (http://archive.ics.uci.edu/ml) и др.

Результаты работы

За период с декабря 2018 года по ноябрь 2019 года в рамках проекта опубликовано 27 научных работ. Основными результатами являются следующие.

  1. Построены нейросетевые классификаторы текстовых данных с использованием дискурсивной структуры текста.

  2. Предложены оригинальные методы повышения эффективности классификации сетевых пакетов с помощью замкнутых описаний.

  3. Развита математическая модель прогнозирования естественной истории развития рака молочной железы с четырёх основных форм развития заболевания.

  4. Исследована сложность по данных при реализации запросов к онтологиям на основе дискриптивных логик.

  5. Исследованы оригинальные методы предсказания сотрудничества в сетях соавторства.

  6. Обновлён инструментарий сбора данных из источников открытых данных.

  7. На основе новых моделей представления знаний о предметных областях разработан прототип подсистемы автоматической генерации тестовых заданий.

  8. На основе анализа интерактивной работы в CAD-пакетах разработан прототип автоматизированной системы оценивания по инженерной графике.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Внедрение результатов исследования возможно в широком спектре областей, где актуален анализ наборов сложноструктурированных данных, зачастую требующий участия эксперта для интерпретации результатов (медицинская информатика, образование, социология, логистика, криминология и др.).

Применимость, эффективность, и корректность предлагаемых моделей и методов подтверждены сравнительным анализом, тестированием реализаций алгоритмов и результатами внедрения. Уровень внедрения отличается для различных методов и программных средств. Новые теоретические результаты в АФП, машинном обучении и обработке текста лежат в основе практически всех современных семантических технологий. Реализации предложенных методов были признаны хорошо интерпретируемыми специалистами в предметных областях.

Проведённое исследование даёт синергетический эффект при рассмотрении нескольких совместных международных проектов, которые ведёт международная научно-учебная лаборатория интеллектуальных систем и структурного анализа. Это позволяет внедрять модели и методы анализа данных совместно с НМИЦ ДГОИ им. Д. Рогачева, лабораторией Гемотест, подразделениями института образования НИУ ВШЭ, исследовательскими центрами LORIA и LIRIS во Франции, политехническим университетом Дрездена в Германии и другими партнёрами.

Публикации по проекту:


Ignatov D. I., Egurnov D., Точилкин Д. С. Multimodal Clustering of Boolean Tensors on MapReduce: Experiments Revisited, in: Supplementary Proceedings ICFCA 2019 Conference and Workshops.: CEUR Workshop Proceedings, 2019. С. 137-151. 
Ignatov D. I., Egurnov D. Triclustring Toolbox, in: Supplementary Proceedings ICFCA 2019 Conference and Workshops.: CEUR Workshop Proceedings, 2019. С. 65-69. 
Kodryan M., Grachev A., Ignatov D. I., Vetrov D. Efficient Language Modeling with Automatic Relevance Determination in Recurrent Neural Networks, in: Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019).: Association for Computational Linguistics, 2019. С. 40-48. 
Korepanova N., Seibold H., Steffen V., Hothorn T. Survival Forests under Test: Impact of the Proportional Hazards Assumption on Prognostic and Predictive Forests for ALS Survival // Statistical Methods in Medical Research. 2019. 
Maksimenkova O. V., Neznanov A., Radchenko I. Using Data Expedition as a Formative Assessment Tool in Data Science Education: Reasoning, Justification, and Evaluation // International Journal of Emerging Technologies in Learning. 2019. Vol. 14. No. 11. P. 107-122. doi
Galitsky B., Ilvovsky D. On the End-to-End Argument Validation System based on Communicative Discourse Trees, in: Proceedings of the 19th Workshop on Computational Models of Natural Argument (CMNA 2019) co-located with the 14th International Conference on Persuasive Technology (PERSUASIVE 2019).: CEUR Workshop Proceedings, 2019. С. 5-16. 
Gerasimova O., Makarov I. Higher School of Economics Co-Authorship Network Study, in: Proceedings of 2nd International Conference on Computer Applications & Information Security (ICCAIS). New York : IEEE, 2019. С. 1-4. 
Gerasimova O., Makarov I. Link Prediction Regression for Weighted Co-authorship Networks, in: Advances in Computational Intelligence. IWANN 2019. Berlin : Springer, 2019. С. 667-677. 
Ilvovsky D., Galitsky B. Discourse-Based Approach to Involvement of Background Knowledge for Question Answering, in: Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2019.: INCOMA Ltd, 2019. С. 373-381. 
Galitsky B., Ilvovsky D., Goncharova E. On a Chatbot Providing Virtual Dialogues, in: Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2019.: INCOMA Ltd, 2019. С. 382-387. 
Galitsky B., Ilvovsky D. Two Discourse Tree-Based Approaches to Indexing Answers, in: Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2019.: INCOMA Ltd, 2019. С. 367-373. 
Kuznetsov S. The logic of action lattices is undecidable, in: 34th Annual ACM/IEEE Symposium on Logic in Computer Science (LICS 2019).: IEEE, 2019. С. 1-9. 
Makarov I., Dmitrii M., Gerasimova O., Vladimir A., Alisa K., Sharma U., Wang H. On Reproducing Semi-dense Depth Map Reconstruction using Deep Convolutional Neural Networks with Perceptual Loss, in: Proceedings of 27th ACM International Conference on Multimedia. New York : ACM, 2019. С. 1080-1084. 
Makarov I., Gerasimova O. Predicting Collaborations in Co-authorship Network, in: Proceedings of the 14th International Workshop on Semantic and Social Media Adaptation and Personalization. New York : IEEE, 2019. С. 1-6. 
Makhalova T., Galitsky B., Ilvovsky D. Information Retrieval Chatbots Based on Conceptual Models, in: International Conference on Conceptual Structures.: Springer, 2019. С. 230-238.