• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Версия для слабовидящихЛичный кабинет сотрудника ВШЭПоискМеню

Методы автоматического выделения тезаурусных отношений на основе словарных толкованийMethods for automatic wordnet relation extraction from dictionary definitions

Соискатель:
Алексеевский Даниил Андреевич
Члены комитета:
Козеренко Елена Борисовна (Федеральный исследовательский центр "Информатика и управление" РАН, канд.филол.наук, председатель комитета), Копотев Михаил Вячеславович (Хельсинкский университет, PhD, адъюнкт-профессор, член комитета), Леонтьев Алексей Петрович (ООО "Аби Продакшн", канд.филол.наук, член комитета), Лопухина Анастасия Александровна (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета), Орехов Борис Валерьевич (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета)
Диссертация принята к предварительному рассмотрению:
6/29/2018
Диссертация принята к защите:
7/6/2018
Дисс. совет:
Совет по филологии
Дата защиты:
11/20/2018
С некоторыми задачами обработки текстов человек справляется лучше, чем компьютер. Например, в отличие от компьютера человек может легко найти в коротком отрывке все упоминания жидкостей и сосудов. Чтобы компьютер смог отвечать на такого рода вопросы, ему нужны базовые представления о мире, например, что чашка -- это сосуд, а чай -- это жидкость. Такие знания называются тезаурусными отношениями. В читаемом для людей виде они содержатся в толковых словарях: "Чашка 1. Небольшой, обычно округлой формы, с ручкой, сосуд для питья". Понятным компьютеру способом представления таких знаний являются семантические сети: тезаурусы и онтологии. Защищаемая работа посвящена автоматизации построения тезауруса на основе толкового словаря. В работе предложен новый подход к извлечению отношений, состоящий из трёх этапов. Для того, чтобы извлекать отношения из толкований, нужно обозреть всё их разнообразие. В помощь исследователю предлагается автоматически группировать похожие по синтаксической структуре толкования так, чтобы легко было убедиться, что все типы толкований охвачены. Это и есть первый этап. На втором этапе исследователь описывает интересные ему свойства каждой группы толкований, а компьютер по описаниям извлекает из толкований тезаурусные отношения. В результате получается набор пар слов, связанных отношениями. Чтобы собрать из них тезаурус, необходимо объединить их в одну сеть: из набора пар чашка-сосуд, чашка-миска, сосуд-вместилище, сосуд-орган нужно понять, в каких случаях мы говорим об одном понятии. Наша цель получить в этом случае цепочку чашка-сосуд-вместилище. Решение такой задачи называется дизамбигуацией и является заключительным этапом работы. Для каждого этапа исследованы и описаны существующие подходы, проведены эксперименты для сравнения различных подходов, предложено наилучшее решение среди исследованных.
Диссертация [*.pdf, 1.14 Мб] (дата размещения 9/20/2018)
Резюме [*.pdf, 169.73 Кб] (дата размещения 9/20/2018)
Summary [*.pdf, 222.18 Кб] (дата размещения 9/20/2018)

Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук НИУ ВШЭ (протокол № 2 от 20.11.2018). Решением диссертационного совета (протокол № 1 от 15.02.2019) присуждена ученая степень кандидата филологических наук НИУ ВШЭ.