• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Модели связывания именованных сущностей в биомедицинском доменеEntity linking models in biomedical domain

Соискатель:
Мифтахутдинов Зульфат Шайхинурович
Члены комитета:
Макаров Илья Андреевич (АНО “Институт Искусственного Интеллекта", PhD, председатель комитета), Жарикова (Баймурзина) Диляра Римовна (Федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт" (Национальный исследовательский университет), к.т.н., член комитета), Ильвовский Дмитрий Алексеевич (Национальный исследовательский университет «Высшая школа экономики», к.т.н., член комитета), Турдаков Денис Юрьевич (Федеральное государственное бюджетное учреждение науки Институт системного программирования имени В. П. Иванникова Российской академии наук., к.ф.-м.н., член комитета), Фильченков Андрей Александрович (Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО", к.ф.-м.н., член комитета)
Диссертация принята к предварительному рассмотрению:
10/12/2022
Диссертация принята к защите:
11/18/2022
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/23/2022
Огромный объем текстовых данных в различных источниках представ­ляет широкие возможности для их использования в качестве ресурса, например, в системе здравоохранения. Источниками данных могут вы­ступать социальные сети, базы научных статей, патентов и клинических испытаний. Однако, большая часть этих данных хранится в неструктурированном виде и требует применения методов извлечения информации к ним. Одним из важнейших этапов извлечения информации является связывание именованных сущностей. Данная диссертационная работа посвящена разработке моделей связывания именованных сущностей в биомедицинском домене. В работе предложены модели на основе классификационного подхода, которые успешно применены к решению задачи связывания именованных сущностей. Также разработаны модели, основанные на классификационном подходе, с использованием векторов семантической близости в качестве дополнительных признаков. Другая предложенная модель связывания именованных сущностей - DILBERT, которая разработана с помощью обучения метрике (metric learning) и негативного сэмплирования (negative sampling). Данная модель позволяет построить единое векторное пространство для сущностей и концептов. В едином пространстве связывание именованных сущностей осуществляется на основе мер сходства. Оценка всех моделей проведена на 10 корпусах. Также эффективность предлагаемых моделей подтверждена в рамках открытых тестирований  CLEF eHealth 2017 Task 1, Social Media Mining for Health Applications (#SMM4H) Shared Tasks 2019-го, 2020-го и 2021-го годов, где модели показали наилучшие результаты среди остальных команд участников.
Диссертация [*.pdf, 2.29 Мб] (дата размещения 10/18/2022)
Резюме [*.pdf, 950.07 Кб] (дата размещения 10/18/2022)
Summary [*.pdf, 909.49 Кб] (дата размещения 10/18/2022)

Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол №2 от 23.12.2022). Решением диссертационного совета (протокол № 1 от 20.01.2023) присуждена ученая степень кандидата компьютерных наук.