Модели связывания именованных сущностей в биомедицинском доменеEntity linking models in biomedical domain
Соискатель:
Мифтахутдинов Зульфат Шайхинурович
Руководитель:
Члены комитета:
Макаров Илья Андреевич (АНО “Институт Искусственного Интеллекта", PhD, председатель комитета), Жарикова (Баймурзина) Диляра Римовна (Федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт" (Национальный исследовательский университет), к.т.н., член комитета), Ильвовский Дмитрий Алексеевич (Национальный исследовательский университет «Высшая школа экономики», к.т.н., член комитета), Турдаков Денис Юрьевич (Федеральное государственное бюджетное учреждение науки Институт системного программирования имени В. П. Иванникова Российской академии наук., к.ф.-м.н., член комитета), Фильченков Андрей Александрович (Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО", к.ф.-м.н., член комитета)
Диссертация принята к предварительному рассмотрению:
10/12/2022
Диссертация принята к защите:
11/18/2022
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/23/2022
Огромный объем текстовых данных в различных источниках представляет широкие возможности для их использования в качестве ресурса, например, в системе здравоохранения. Источниками данных могут выступать социальные сети, базы научных статей, патентов и клинических испытаний. Однако, большая часть этих данных хранится в неструктурированном виде и требует применения методов извлечения информации к ним. Одним из важнейших этапов извлечения информации является связывание именованных сущностей. Данная диссертационная работа посвящена разработке моделей связывания именованных сущностей в биомедицинском домене. В работе предложены модели на основе классификационного подхода, которые успешно применены к решению задачи связывания именованных сущностей. Также разработаны модели, основанные на классификационном подходе, с использованием векторов семантической близости в качестве дополнительных признаков. Другая предложенная модель связывания именованных сущностей - DILBERT, которая разработана с помощью обучения метрике (metric learning) и негативного сэмплирования (negative sampling). Данная модель позволяет построить единое векторное пространство для сущностей и концептов. В едином пространстве связывание именованных сущностей осуществляется на основе мер сходства. Оценка всех моделей проведена на 10 корпусах. Также эффективность предлагаемых моделей подтверждена в рамках открытых тестирований CLEF eHealth 2017 Task 1, Social Media Mining for Health Applications (#SMM4H) Shared Tasks 2019-го, 2020-го и 2021-го годов, где модели показали наилучшие результаты среди остальных команд участников.
Диссертация [*.pdf, 2.29 Мб] (дата размещения 10/18/2022)
Резюме [*.pdf, 950.07 Кб] (дата размещения 10/18/2022)
Summary [*.pdf, 909.49 Кб] (дата размещения 10/18/2022)
Публикации, в которых излагаются основные результаты диссертации
Miftahutdinov Z., Kadurin A., Kudrin R., Tutubalina E. Drug and Disease Interpretation Learning with Biomedical Entity Representation Transformer (смотреть на сайте журнала)
Miftahutdinov Z., Kadurin A., Kudrin R., Tutubalina E. Medical concept normalization in clinical trials with drug and disease representation learning (смотреть на сайте журнала)
Tutubalina E., Miftahutdinov Z., Nikolenko S., Malykh V. Medical concept normalization in social media posts with recurrent neural networks (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Тутубалина Елена Викторовна (дата размещения 10/17/2022)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол №2 от 23.12.2022). Решением диссертационного совета (протокол № 1 от 20.01.2023) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему
Влияние структурных и функциональных связей на асимметрию языковых процессов и их нейрональную реорганизациюКандидатская диссертация
Соискатель: Карпычев Виктор Викторович
Руководитель: Драгой Ольга Викторовна
Динамика обучения и ландшафт функции потерь нейронных сетей с масштабно-инвариантными параметрамиКандидатская диссертация
Соискатель: Кодрян Максим Станиславович
Руководитель: Ветров Дмитрий Петрович
Дата защиты: 1/23/2024
Модели и методы автоматической обработки неструктурированных данных в биомедицинской областиДокторская диссертация
Соискатель: Тутубалина Елена Викторовна
Дата защиты: 11/7/2023