• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Математические модели, алгоритмы и программные средства интеллектуального анализа информации в текстовой и структурной форме

Приоритетные направления развития: бизнес-информатика
2012
Подразделение: Научно-учебная лаборатория интеллектуальных систем и структурного анализа

Данная работа продолжает исследования, проводимые в НУЛ интеллектуальных систем и структурного анализа. Актуальность проведения исследования вызвана острой необходимостью развития методов анализа сложной (текстовой и структурной) распределенной информации в различных областях научной и практической деятельности (от химии и наук о жизни до экономики, социологии и политологии), и связанной с этим задачей подготовки специалистов соответствующего профиля в НИУ ВШЭ. В настоящее времени исследования в области анализа данных значимы для создания новых поколений интеллектуальных систем. Отметим, что всё большую роль играют данные, доступные в сети Интернет.

Целью работы является развитие и создание новых методов, алгоритмов и программных средств анализа структурированных и неструктурированных данных, а также применение созданных средств при решении прикладных задач, разработке исследовательских и прикладных интеллектуальных информационных систем. Таким образом, объектом работы выступают  методы, алгоритмы и программные средства интеллектуального анализа структурированных и неструктурированных данных. Предметом работы является качество методов анализа и эффективность реализующих их алгоритмов. В работе получены новые научные результаты в области математических и алгоритмических средств анализа данных. В первую очередь рассматриваются методы, опирающиеся на теории анализа формальных понятий (АФП), мультимодальной кластеризации, компьютерной лингвистики.

В качестве основных результатов выделим:
  1. накопление значительного объёма источников информации и тестовых наборов данных в рамках теоретических исследований в областях АФП, кластеризации и бикластеризации, обработки текстов (всего более 60 новых источников и более 2 ГБ новых коллекций данных);
  2. создание прототипа программного оригинального компонента выделения ключевых слов и словосочетаний, использованного в подсистеме индексации нескольких программных проектов лаборатории;
  3. разработку и апробацию на реальных прикладных задачах алгоритмов временного анализа, использующие методы АФП: анализа экстенсионально связных и устойчивых формальных понятий, новые методы анализа сходства формальных понятий;
  4. новую версию алгоритмов трикластеризации на основе решеток замкнутых множеств для случая бинарных объектно-признаковых данных, на основе которых построено семейство алгоритмов вычисления  базовых характеристик триконтекстов и мер качества коллекций трикластеров (Triclustering Toolbox);
  5. развитие и апробацию методов исследования извлечения оценочных слов в задачах анализа мнений;
  6. создание (с использованием опыта участия в проекте CORDIET) платформы DOD-DMS (Dynamical Ontology-Driven Data Mining System), которая позволяет на новом уровне развивать исследовательские и прикладные системы, специализирующие платформу по области применения и используемым методам;
  7. переход от прототипирования АСНИ для исследований в области АФП, получившей в прошлом году название  FCAS (Formal Concept Analysis System) к развитию и апробации АСНИ FCART (Formal Concept Analysis Research Toolbox) на основе платформы DOD-DMS, текущая версия – 0.7, внедрение системы планируется летом 2013 года в ходе нескольких проектов в областях здравоохранения, анализа текстовых Интернет-данных и др.
  8. разработка новых гибридных рекомендательных систем на основе алгоритмов объектно-признаковой би- и трикластеризации для различных нужд (радиохостинг, парфюмерная продукция, а в перспективе мультирекомендательные сервисы).
Областью применения полученных результатов является широкий спектр приложений, где необходим анализ больших объёмов данных, в первую очередь с участием экспертов-аналитиков (медицинская информатика и биоинформатика, социология, криминалистика и др.).

Эффективность и корректность предлагаемых методов подтверждена апробацией и внедрением. Степень внедрения различается для разных методов и программных средств. Новые теоретические результаты в области АФП (особенно связанные с динамическим анализом формальных контекстов) уже реализованы в АСНИ FCART. Промежуточные версии системы FCART активно используется в научных исследованиях НУЛ интеллектуальных систем и структурного анализа, ФНКЦ ДГОИ им. Д. Рогачёва, университете Лёвена.

Проведённые исследования оказали синергетический эффект и позволили поставить задачи интеграции нескольких моделей и методов анализа данных в рамках единой интеллектуальной информационной системы (платформы). Её развитие – базовая задача дальнейшей исследовательской работы и конструированию программных средств.

Публикации по проекту:


Neznanov A., Ilvovsky D., Kuznetsov S. FCART: A New FCA-based System for Data Analysis and Knowledge Discovery, in: Contributions to the 11th International Conference on Formal Concept Analysis. Dresden : Qucoza, 2013. P. 31-44.
Bezzubtseva A., Ignatov D. I. A Typology of Collaboration Platform Users, in: Proceedings of International Workshop on Experimental Economics in Machine Learning 2012 / Отв. ред.: R. Tagiew, D. I. Ignatov, A. Neznanov, J. Poelmans. KU-Leuven, 2012. P. 9-19.
Паринов А. А. Базовые структуры данных системы поддержки принятия решений FCART // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2014

См. также

Ключевые слова