• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Версия для слабовидящихЛичный кабинет сотрудника ВШЭПоиск

Разработка математических моделей и методов рекомендательных систем и автоматической обработки текстов

Приоритетные направления развития: компьютерно-математическое
2019

Цель работы

Целью проекта является создание и исследование новых методов анализа неструктурированных данных и машинного обучения, применяемых для решения прикладных задач в различных областях.

Используемые методы

В рамках проекта проводятся исследования в таких областях как машинное обучение и майнинг данных (data mining) с фокусом на поиске интерпретируемых закономерностей в данных, дискретная математика и оптимизация, искусственный интеллект и теоретическая информатика (в частности, алгебраический подход на основе анализа формальных понятий),  компьютерная лингвистика и рекомендательные системы. 

Используются такие методы, как мультимодальная (тензорная) и нейросетевая кластеризация, матричная и тензорная факторизации для снижения размерности и извлечения скрытых факторов, анализ формальных понятий, анализ и поиск частых множеств и подпоследовательностей, ансамбли деревьев решений на основе градиентного бустинга, нейросетевые методы (как классические CNN, RNN, так и специализированные глубокие модели, например, BERT), множественная классификация (multilabel classification), интерпретируемые методы машинного обучения на основе индексов влияния (индекс Шепли), нейросетевые методы извлечения информации из неструктурированных текстов, коллаборативная фильтрация и краудсорсинг. 

При разработке эффективных алгоритмов используются элементы теории сложности вычислений, в частности для оценки сложности алгоритмов (например, в худшем случае) и установления классов задач (например, NP-complete, #P-complete и др.). В качестве средств и технологий повышающих эффективность вычислений используется параллельное программирование, распределенные вычисления (MapReduce), а также облачные сервисы с возможностью использования многоядерных графических процессоров.

Кроме того, в контексте проводимых работ часто уместно использование альтернативных парадигм обучения – активного обучения и переноса обучения с более простых задач на более сложные.  

Эмпирическая база исследования

Для проведения исследований используются как классические наборы данных в области машинного обучения и рекомендательных систем – репозитории UCI Machine Learning Repository (http://archive.ics.uci.edu/ml) и GroupLens Research (https://grouplens.org/datasets/movielens/), так и открытые исследовательские наборы данных (например, Национальный корпус русского языка, http://www.ruscorpora.ru/new/corpora-about.html; репрезентативная панельная выборка для всероссийского опросного исследования “Parents and Children, Men and Women in Family and in Society”, http://www.ggp-i.org/), данные социальных медиа, государственные реестры открытых данных (например, Origin and Destination Survey US Department of Transportation https://www.transtats.bts.gov/DatabaseInfo.asp?DB_ID=125, данные Министерства экономического развития РФ) и др. Ведутся работы по сбору и разметке  наборов данных на русском языке, следующих методологии англоязычных бенчмарков SentEval, Linspector, oLMpics, GLUE, SuperGLUE. Для разметки данных используются внешние ресурсы, такие как Яндекс.Толока.

Результаты работы

За период с июня 2019 года по декабрь 2019 года в рамках проекта опубликовано более 10 научных работ. Основным результатами являются следующие:1. Распределенные и оптимизационные методы поиска плотных мультимодальных кластеров (квазиблик и бикластеров в двумерном случае, трикластеров и т.д.) как в тензорах булевых так и в тензорах действительных чисел. 2. Методы разреживания и определения автоматической релевантности для рекуррентных нейронных сетей в задах моделирования языка.3. Успешное применение методов интерпретируемого машинного обучения на основе индекса Шепли в таких областях как анализ демографических последовательностей и онлайн реклама. 4. Разработанная мультиязычная модель извлечения именованных сущностей из текстов на славянских языках.5. Разработанный метод определения композициональности именных групп на материале русского языка.

Степень внедрения, рекомендации по внедрению или итоги внедрения результатов НИР

Внедрение результатов исследования возможно в различных областях, в которых возникает необходимость анализа неструктурированных наборов данных, например, при разработке рекомендательных сервисов, сервисов мониторинга социальных медиа или голосовых помощников. В частности, методы трикластеризации используются для кластеризации семантических фреймов в группах К. Бимана (Университет Гамбурга), А. Панченко (Сколковский институт науки и технологий), для семантической кластеризации текстов  в группе М. Богатырева (Тульский государственный университет), а также в Лаборатории молекулярной генетики человека ИМГ РАН для поиска сходства в данных на основе однонуклеотидных полиморфизов. Иерархическая модель классификации коротких текстов на основе нейросетевого механизма внимания, разработанная научным сотрудником лаборатории Е. Артемовой и соавторами  применялась в рамках ее стажировки в компании Филипс (Нидерланды). Методы анализа префиксных последовательностей используются Е. Митрофановой и коллегами в институте демографии НИУ ВШЭ для исследования демографический траекторий россиян. Результаты множественной классификации на основе ансамблей деревьев решений используются в компании Шлюмберже (Москва, Россия) для мониторинга продуктивности газонефтяных скважин.

Проводимые исследования на материале государственных документов могут быть использованы экспертами в соответствующих предметных областях. Собираемые и публикуемые наборы данных могут быть использованы другими исследовательским группами и индустриальными партнерами. 

Публикации по проекту:


undefined., Sarkisyan V., Emelyanov A., Artemova E. Processing and Analysis of Russian Strategic Planning Programs, in: Digital Transformation and Global Society. Fourth International Conference, DTGS 2019, St. Petersburg, Russia, June 19–21, 2019, Revised Selected Papers.: Springer, 2019. С. 68-81. 
Artemova E., Harma A., Polyakov A. Active Learning for Conversational Interfaces in Healthcare Applications, in: Artificial Intelligence in Health.: Springer Publishing Company, 2019. С. 48-58. 
Emelyanov A., Artemova E. Multilingual Named Entity Recognition Using Pretrained Embeddings, Attention Mechanism and NCRF, in: Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing, 2019, Florence, Italy, Association for Computational Linguistics., 2019. С. 94-99. 
Gizdatullin D., Baixeries J., Ignatov D. I., Mitrofanova E., Muratova A., Espy I. T. H. Learning Interpretable Prefix-Based Patterns from Demographic Sequences, in: Intelligent Data Processing 11th International Conference, IDP 2016, Barcelona, Spain, October 10–14, 2016, Revised Selected Papers. Switzerland : Springer, 2019. С. 74-91. 
Ignatov D. I., Michael F. General Game Playing B-to-B Price Negotiations⋆, in: Proceedings of the Fifth International Workshop on Experimental Economics and Machine Learning (EEML 2019),Perm, Russia, September 26, 2019.: CEUR Workshop Proceedings, 2019. С. 89-99. 
Timur K., Ignatov D. I. Attribution of Customers’ Actions Based on Machine Learning Approach, in: Proceedings of the Fifth International Workshop on Experimental Economics and Machine Learning (EEML 2019),Perm, Russia, September 26, 2019.: CEUR Workshop Proceedings, 2019. С. 77-88. 
Kutuzov A. B., undefined. Double-Blind Peer-Reviewing and Inclusiveness in Russian NLP Conferences, in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected Papers. Cham : Springer, 2019. С. 3-8. 
Anna M., Islam R., Mitrofanova E., Ignatov D. I. Searching for Interpretable Demographic Patterns, in: Proceedings of the Fifth Workshop on Experimental Economics and Machine Learning at the National Research University Higher School of Economics co-located with the Seventh International Conference on Applied Research in Economics (iCare7). Aachen : CEUR Workshop Proceedings, 2019. С. 18-31. 
Popov D., Pugachev A., Svyatokum P., Svitanko E., Artemova E. Evaluation of Sentence Embedding Models for Natural Language Understanding Problems in Russian, in: Analysis of Images, Social Networks and Texts. 8th International Conference AIST 2019.: Springer, 2019. С. 205-217. 
Puzyrev D., Shelmanov A., Panchenko A., Artemova E. A Dataset for Noun Compositionality Detection for a Slavic Language, in: Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing, 2019, Florence, Italy, Association for Computational Linguistics., 2019. С. 56-62. 
Puzyrev D. A., Shelmanov A., Panchenko A., Artemova E. Noun Compositionality Detection using Distributional Semantics for the Russian Language, in: Analysis of Images, Social Networks and Texts. 8th International Conference AIST 2019.: Springer, 2019. С. 218-229. 
Сендерович М. А. ПРОЕКТНОЕ ПРЕДЛОЖЕНИЕ: АВТОМАТИЗИРОВАННЫЙ ПОДХОД К РЕКОМЕНДАТЕЛЬНЫМ СИСТЕМАМ, in: Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов им. Е.В. Арменского. Москва : МИЭМ НИУ ВШЭ, 2019. С. 223-224. 
Ignatov D. I., Иванова П., Замалетдинова А. Mixed Integer Programming for Searching Maximum Quasi-Bicliques, in: Network Algorithms, Data Mining, and Applications. Springer Proceedings in Mathematics & Statistics.: Springer, 2020. С. 19-35. 
Kiselev D., Makarov I. Prediction of New Itinerary Markets for Airlines via Network Embedding, in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Kazan, Russia, July 17–19, 2019, Revised Selected Papers. Communications in Computer and Information Science.: Springer, 2020. С. 315-325.