• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Математические модели, алгоритмы и программные средства интеллектуального анализа больших данных (Big Data) в текстовой и структурной форме

2013
Подразделение: Научно-учебная лаборатория интеллектуальных систем и структурного анализа

В 2013 году продолжаются исследования, запланированные и проводимые в НУЛ интеллектуальных систем и структурного анализа на основе результатов предыдущих лет. Актуальность проведения исследования вызвана острой необходимостью развития методов анализа сложной (текстовой и структурной) распределенной информации в различных областях научной и практической деятельности (от физики, химии и наук о жизни до экономики, социологии и политологии), и связанной с этим задачей подготовки специалистов соответствующего профиля в НИУ ВШЭ.

В настоящее времени исследования в области анализа данных значимы для создания новых поколений интеллектуальных систем. Всё большую роль играет анализ данных, доступных в сети Интернет, в том числе данные социальных сетей, рекомендательных систем, данные хранилищ документов на естественных языках.

Исследования в области анализа данных неизбежно сталкиваются с необходимостью обрабатывать данными больших объемов. Особенности работы с распределенными хранилищами данных больших объемов требуют новых подходов и разработки новых высокоэффективных алгоритмов. Использование моделей анализа формальных понятий упрощает обнаружение и извлечение [mining] новых и скрытых знаний из данных больших объемов.

Целью работы является развитие и создание новых методов и алгоритмов анализа структурированных и неструктурированных данных, разработка программных средств обработки распределенных данных больших объемов, а также применение созданных средств при решении прикладных задач. Таким образом, объектом работы выступают  методы, алгоритмы и программные средства интеллектуального анализа структурированных и неструктурированных данных. Предметом работы является качество методов анализа и эффективность реализующих их алгоритмов. В первую очередь рассматриваются методы, опирающиеся на теории анализа формальных понятий (АФП), мультимодальной кластеризации, компьютерной лингвистики.

В качестве основных результатов выделим:

1) накопление значительного объёма источников информации и тестовых наборов данных в рамках теоретических исследований в областях АФП, кластеризации и бикластеризации, обработки текстов (всего более 80 новых источников и более 60 ГБ новых коллекций синтетических и реальных данных; вместе с партнёрами – компанией Яндекс, ФНКЦ ДГОИ им. Д. Рогачёва, «Лабораторий цифрового общества», лабораторией LORIA (Франция) и др. – систематизированы массивы данных объёмом более 230 ТБ);

2) повышение эффективности реализаций базовых алгоритмов АФП – построения решёток формальных понятий и работы с индексами устойчивости формальных понятий;

3) создание прототипа оригинального программного компонента для работы с «узорными структурами [pattern structures]», тестирование этого компонента на объектах, описываемых последовательностями и графами;

4) создание нескольких версий методов и алгоритмов кластеризации и классификации на триконтекстах, тестирование реализаций алгоритмов в Интернет-сервисах рекомендательных систем, контекстной рекламы, краудсорсинга;

5) развитие платформы DOD-DMS (Dynamical Ontology-Driven Data Mining System) в части предобработки данных из внешних источников, локального хранилища сложноструктурированных данных, эффективной индексации текстов на естественных языках;

6) развитие АСНИ FCART (Formal Concept Analysis Research Toolbox) на основе платформы DOD-DMS, релиз версии 0.8 и переход к плановой работе над версией 0.9, доработки комплекса средств анализа индексов формальных понятий любого вида, средств обработки узорных структур, редактора отчётов, встроенного скриптового языка.

 Областью применения полученных результатов является широкий спектр приложений, где необходим анализ больших объёмов данных, в первую очередь с участием экспертов-аналитиков (медицинская информатика, клиническая информатика, биоинформатика, социология, оптимизация логистических процессов, правоохранение и др.).

Эффективность и корректность предлагаемых моделей и методов подтверждена сравнительными исследованиями, апробацией и внедрением. Степень внедрения различается для разных методов и программных средств. Новые теоретические результаты в области АФП по возможности полно реализуются в АСНИ FCART. Промежуточные версии системы FCART активно используется в учебном процессе отделения Прикладной математики и информатики, научных исследованиях НУЛ интеллектуальных систем и структурного анализа, ФНКЦ ДГОИ им. Д. Рогачёва, университетах Дрездена, Нанси, Клермон-Феррана.

Проведённые исследования оказали синергетический эффект и позволили поставить задачи интеграции нескольких моделей и методов анализа данных в рамках единой интеллектуальной информационной системы. Развитие платформы для дальнейшего наращивания эффективности научных исследований – базовая задача дальнейшей работы и конструирования программных средств.

Публикации по проекту:


Kuznetsov S. Fitting Pattern Structures for Knowledge Discovery in Big Data, in: Proc. 11th International Conference on Formal Concept Analysis (ICFCA 2013) / Отв. ред.: P. Cellier, F. Distel, B. Ganter. Vol. 7880. Springer, 2013. P. 254-266.
Galitsky B., Kuznetsov S., Usikov D. Parse Thicket Representation for Multi-sentence Search, in: Conceptual Structures for STEM Research and Education, 20th International Conference on Conceptual Structures / Отв. ред.: H. Pfeiffer, D. I. Ignatov, J. Poelmans, G. Nagarjuna. Vol. 7735: Conceptual Structures for STEM Research and Education, 20th International Conference on Conceptual Structures. Berlin, Heidelberg : Springer, 2013. P. 153-172.
Kuznetsov S., Neznanov A. Information Retrieval and Knowledge Discovery with FCART P. 74-82.
Kuznetsov S., Babin M. A. Computing premises of a minimal cover of functional dependencies is intractable // Discrete Applied Mathematics. 2013. Vol. 161. No. 6. P. 742-749.
Ilvovsky D., Klimushkin M. A. FCA-based Search for Duplicate Objects in Ontologies, in: Proceedings of the Workshop Formal Concept Analysis Meets Information Retrieval / Отв. ред.: S. Kuznetsov, C. Carpineto, A. Napoli. Vol. 977. M. : CEUR Workshop Proceedings, 2013. P. 44-54.
Kuznetsov S., Poelmans J. Knowledge representation and processing with formal concept analysis // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2013. Vol. 3. No. 3. P. 200-215. doi
Kuznetsov S., Strok F. V., Ilvovsky D., Galitsky B. Improving Text Retrieval Efficiency with Pattern Structures on Parse Thickets, in: Proceedings of the Workshop Formal Concept Analysis Meets Information Retrieval / Отв. ред.: S. Kuznetsov, C. Carpineto, A. Napoli. Vol. 977. M. : CEUR Workshop Proceedings, 2013. P. 6-21.
Galitsky B., Kuznetsov S. A Web Mining Tool for Assistance with Creative Writing P. 828-831.
Galitsky B., Kuznetsov S. A Web Mining Tool for Assistance with Creative Writing, in: Proc. 35th European Conference on Information Retrieval (ECIR 2013): Advances in Information Retrieval / Отв. ред.: P. Serdyukov, P. Braslavski, S. Kuznetsov, J. Kamps, S. Rüger, E. Agichtein, I. Segalovich, E. Yilmaz. Vol. 7814. Springer, 2013. P. 828-831.
Kuznetsov S., Neznanov A. Information Retrieval and Knowledge Discovery with FCART, in: Proceedings of the Workshop Formal Concept Analysis Meets Information Retrieval / Отв. ред.: S. Kuznetsov, C. Carpineto, A. Napoli. Vol. 977. M. : CEUR Workshop Proceedings, 2013. P. 74-82.
Ignatov D. I., Kuznetsov S., Zhukov L. E., Poelmans J. Can triconcepts become triclusters? // International Journal of General Systems. 2013. Vol. 42. No. 6. P. 572-593. doi
Konstantin Bazhanov, Obiedkov S. Optimizations in computing the Duquenne–Guigues basis of implications // Annals of Mathematics and Artificial Intelligence. 2014. Vol. 70. No. 1-2. P. 5-24. doi
Obiedkov S. Modeling ceteris paribus preferences in formal concept analysis, in: Formal Concept Analysis / Ed. by P. Cellier, F. Distel, B. Ganter. Vol. 7880. Berlin, Heidelberg : Springer, 2013. P. 188-202.
Buzmakov A., Neznanov A. Practical Computing with Pattern Structures in FCART Environment, in: Proceedings of the International Workshop "What can FCA do for Artificial Intelligence?" (FCA4AI at IJCAI 2013) / Ed. by S. Kuznetsov, A. Napoli, S. Rudolph. Issue 1058. Beijing : CEUR Workshop Proceedings, 2013. Ch. 7. P. 49-56.
Galitsky B., Ilvovsky D., Kuznetsov S., Strok F. V. Matching sets of parse trees for answering multi-sentence questions, in: Proceedings of the Recent Advances in Natural Language Processing. Hissar : INCOMA Ltd, 2013. P. 285-293.
Galitsky B., Ilvovsky D., Kuznetsov S., Strok F. V. Parse thicket representations of text paragraphs, in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т. Т. 1: Основная программа конференции. Вып. 12 (19). М. : РГГУ, 2013. P. 239-255.

См. также

Ключевые слова