• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Елипашева Татьяна Сергеевна
Исследование алгоритмов установления кореферентных связей в тексте
Магистратура
2014
На сегодняшний день всеобщее распространение и совершенствование информационных технологий вызвали мощный стимул к исследованиям в области анализа текстовых данных. Наиболее важным условием качества понимая информации при извлечении из текста на естественном языке является установление повторно упоминаемых объектов. Актуальной задачей представляется разработка специализированных моделей распознавания и алгоритмических средств по переводу неструктурированного текста в структура, отражающую сложные смысловые отношения между объектами и сущностями.Данная работа посвящена исследованию одной из самых главный проблем автоматической обработки текстов – разрешение кореферентных связей между объектами в тексте. Предлагаются метрики, разработанные для оценки кореференции, а также описан процесс машинного обучения на размеченном корпусе, состоящим из информационно-новостных статей. Задача установления кореферентной связи состоит в том, чтобы обнаружить зависимость между объектами, сущностями и упоминаниями, имеющихся в простых предложениях, на протяжении всего текста. Проведен обзор уже имеющихся систем по установлению корефенции и можно сделать следующие наблюдения. Во-первых, системы направлены на изучение кореференций на английском языке по большей степени. Во-вторых, данные системы не находяться в свободном распространении. В-третьих, алгоритм распознавания кореферентных связей в большинстве систем представляет собой либо оригинальный, либо модифицированный алгоритм машинного обучения. Данный факт обуславливается тем, что алгоритмы машинного обучения показывают наиболее высокую эффективность при работе с большими объемами данных, а также устойчивость к смене формата входных данных, т.е. не требуют дополнительных затрат на пересмысление ввода. Для данной задачи был собран корпус информационно-новостных статей о НИУ ВШЭ на официальном сайте университета с целью исследования объектов таких выделенных классов как внутренняя организация, личности, партнеры и т.д. Осуществлялась предобработка, морфологическая разметка корпуса с помощью программных средств. Проводилась разработка синтаксических, лексических и семантических метрик, указывающих на принадлежность того или иного упоминания сущности. Все тексты были размечены в ручную, с одной лишь разницей: для обучающей выборки указывался признак - кореферентна ли пара концептов. Затем на тестовой выбор проводилось распознавание кореференций. Реализация алгоритмов машинного обучения проводилась с помощью программных средств Python, автоматическая морфологическая разметка текстов осуществлялась с помощью библиотеки PyMorphy.Решение задачи установления кореферентных связей позволяет структурировать исходную информацию путем выявления основных классов объектов. Область применения информации, структурированной таким образом, весьма обширна, поскольку может быть использованна далее в качестве как познавательного, так и исследовательского ресурса.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР