• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы автоматического выделения тезаурусных отношений на основе словарных толкований Methods for automatic wordnet relation extraction from dictionary definitions Кандидатская диссертация Ученая степень НИУ ВШЭ

Соискатель:Алексеевский Даниил Андреевич
Руководитель:Толдова Светлана Юрьевна (др. работы под рук-вом)
Члены комитета:Козеренко Елена Борисовна (Федеральный исследовательский центр "Информатика и управление" РАН, канд.филол.наук, председатель комитета), Копотев Михаил Вячеславович (Хельсинкский университет, PhD, адъюнкт-профессор, член комитета), Леонтьев Алексей Петрович (ООО "Аби Продакшн", канд.филол.наук, член комитета), Лопухина Анастасия Александровна (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета), Орехов Борис Валерьевич (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета)
Диссертация принята к предварительному рассмотрению:29.06.2018
Диссертация принята к защите:6.07.2018
Дисс. совет:Совет по филологии
Дата защиты:20.11.2018


С некоторыми задачами обработки текстов человек справляется лучше, чем компьютер. Например, в отличие от компьютера человек может легко найти в коротком отрывке все упоминания жидкостей и сосудов. Чтобы компьютер смог отвечать на такого рода вопросы, ему нужны базовые представления о мире, например, что чашка -- это сосуд, а чай -- это жидкость. Такие знания называются тезаурусными отношениями. В читаемом для людей виде они содержатся в толковых словарях: "Чашка 1. Небольшой, обычно округлой формы, с ручкой, сосуд для питья". Понятным компьютеру способом представления таких знаний являются семантические сети: тезаурусы и онтологии. Защищаемая работа посвящена автоматизации построения тезауруса на основе толкового словаря. В работе предложен новый подход к извлечению отношений, состоящий из трёх этапов. Для того, чтобы извлекать отношения из толкований, нужно обозреть всё их разнообразие. В помощь исследователю предлагается автоматически группировать похожие по синтаксической структуре толкования так, чтобы легко было убедиться, что все типы толкований охвачены. Это и есть первый этап. На втором этапе исследователь описывает интересные ему свойства каждой группы толкований, а компьютер по описаниям извлекает из толкований тезаурусные отношения. В результате получается набор пар слов, связанных отношениями. Чтобы собрать из них тезаурус, необходимо объединить их в одну сеть: из набора пар чашка-сосуд, чашка-миска, сосуд-вместилище, сосуд-орган нужно понять, в каких случаях мы говорим об одном понятии. Наша цель получить в этом случае цепочку чашка-сосуд-вместилище. Решение такой задачи называется дизамбигуацией и является заключительным этапом работы. Для каждого этапа исследованы и описаны существующие подходы, проведены эксперименты для сравнения различных подходов, предложено наилучшее решение среди исследованных.

Диссертация [*.pdf, 1.14 Mb] (дата размещения 20.09.2018)
Резюме [*.pdf, 169.73 Kb] (дата размещения 20.09.2018)
Summary [*.pdf, 222.18 Kb] (дата размещения 20.09.2018)

Публикации, в которых излагаются основные результаты диссертации

Word sense disambiguation features for taxonomy extraction (смотреть на сайте журнала)


Отзывы:
Отзыв научного руководителя
Сведения о результатах защиты:Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук НИУ ВШЭ (протокол № 2 от 20.11.2018). Решением диссертационного совета (протокол № 1 от 15.02.2019) присуждена ученая степень кандидата филологических наук НИУ ВШЭ.
Ключевые слова: автоматическая обработка текстов, векторные семантические модели, ворднет, дизамбигуация, извлечение отношений, обучение с частичным привлечением учителя, тезаурус