Методы автоматического выделения тезаурусных отношений на основе словарных толкованийMethods for automatic wordnet relation extraction from dictionary definitions

Соискатель:

Алексеевский Даниил Андреевич

Руководитель:

Толдова Светлана Юрьевна (др. работы под рук-вом)

Члены комитета:

Козеренко Елена Борисовна (Федеральный исследовательский центр "Информатика и управление" РАН, канд.филол.наук, председатель комитета), Копотев Михаил Вячеславович (Хельсинкский университет, PhD, адъюнкт-профессор, член комитета), Леонтьев Алексей Петрович (ООО "Аби Продакшн", канд.филол.наук, член комитета), Лопухина Анастасия Александровна (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета), Орехов Борис Валерьевич (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета)

Диссертация принята к предварительному рассмотрению:

6/29/2018

Диссертация принята к защите:

7/6/2018

Дисс. совет:

Совет по филологии

Дата защиты:

11/20/2018

С некоторыми задачами обработки текстов человек справляется лучше, чем компьютер. Например, в отличие от компьютера человек может легко найти в коротком отрывке все упоминания жидкостей и сосудов. Чтобы компьютер смог отвечать на такого рода вопросы, ему нужны базовые представления о мире, например, что чашка -- это сосуд, а чай -- это жидкость. Такие знания называются тезаурусными отношениями. В читаемом для людей виде они содержатся в толковых словарях: "Чашка 1. Небольшой, обычно округлой формы, с ручкой, сосуд для питья". Понятным компьютеру способом представления таких знаний являются семантические сети: тезаурусы и онтологии. Защищаемая работа посвящена автоматизации построения тезауруса на основе толкового словаря. В работе предложен новый подход к извлечению отношений, состоящий из трёх этапов. Для того, чтобы извлекать отношения из толкований, нужно обозреть всё их разнообразие. В помощь исследователю предлагается автоматически группировать похожие по синтаксической структуре толкования так, чтобы легко было убедиться, что все типы толкований охвачены. Это и есть первый этап. На втором этапе исследователь описывает интересные ему свойства каждой группы толкований, а компьютер по описаниям извлекает из толкований тезаурусные отношения. В результате получается набор пар слов, связанных отношениями. Чтобы собрать из них тезаурус, необходимо объединить их в одну сеть: из набора пар чашка-сосуд, чашка-миска, сосуд-вместилище, сосуд-орган нужно понять, в каких случаях мы говорим об одном понятии. Наша цель получить в этом случае цепочку чашка-сосуд-вместилище. Решение такой задачи называется дизамбигуацией и является заключительным этапом работы. Для каждого этапа исследованы и описаны существующие подходы, проведены эксперименты для сравнения различных подходов, предложено наилучшее решение среди исследованных.

Диссертация [*.pdf, 1.14 Мб] (дата размещения 9/20/2018)

Резюме [*.pdf, 169.73 Кб] (дата размещения 9/20/2018)

Summary [*.pdf, 222.18 Кб] (дата размещения 9/20/2018)

Публикации, в которых излагаются основные результаты диссертации

Word sense disambiguation features for taxonomy extraction (смотреть на сайте журнала)

Word sense disambiguation in monolingual dictionaries for building Russian WordNet (смотреть на сайте журнала)

Применение контекстно-свободных грамматик для извлечения онтологии из текстов коротких описаний статей биологической тематики (смотреть на сайте журнала)

Отзывы

Отзыв научного руководителя

Толдова С.Ю. (дата размещения 9/27/2018)

Отзыв члена Комитета

Леонтьев А.П. (дата размещения 11/21/2018)
Копотев М.В. (дата размещения 11/21/2018)
Лопухина А.А. (дата размещения 11/21/2018)
Орехов Б.В. (дата размещения 11/21/2018)
Козеренко Е.Б. (дата размещения 11/21/2018)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук НИУ ВШЭ (протокол № 2 от 20.11.2018). Решением диссертационного совета (протокол № 1 от 15.02.2019) присуждена ученая степень кандидата филологических наук НИУ ВШЭ.

Ключевые слова:

автоматическая обработка текстов, векторные семантические модели, ворднет, дизамбигуация, извлечение отношений, обучение с частичным привлечением учителя, тезаурус

См. на ту же тему

Методы переноса обучения в задачах автоматической обработки текстаКандидатская диссертация

Соискатель: Пугачев Александр Вадимович
Руководитель: Артемова Екатерина Леонидовна
Дата защиты: 7/7/2026

Методы и алгоритмы для извлечения, связывания, векторизации и разрешения неоднозначности лексико-семантических графовДокторская диссертация

Соискатель: Панченко Александр Иванович
Дата защиты: 12/18/2024

Модели и методы автоматической обработки неструктурированных данных в биомедицинской областиДокторская диссертация

Соискатель: Тутубалина Елена Викторовна
Дата защиты: 11/7/2023