• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

ФИО студента
Название работы
Руководитель
Факультет
Программа
Оценка
Год защиты
Логинова Екатерина Дмитриевна
Методы извлечения информации из проблемно-ориентированных текстов на основе лингвистических правил
2015
За последние десятилетия объём информации, доступной в цифровом виде, резко возрос, при этом большая её часть представлена через неструктурированные тексты на естественном языке, что существенно осложняет её использование. Как следствие, в последние годы повысился интерес к разработке приложений, способных автоматически обрабатывать тексты на естественном языке, особенно – извлекать из них необходимые нам сведения в структурированной форме. Данная работа посвящена извлечению информации из проблемно-ориентированных текстов с помощью лингвистических правил. Тексты представляют собой онлайн-новости об экономической деятельности компаний в газовой и нефтедобывающей отраслях, написанные на русском языке. Разработанная в данной работе система автоматически извлекает новостные тексты из Интернета. Далее проводится их синтаксический и морфологический анализ. Затем система использует Томита-парсер для извлечения информация о динамике экономических показателей фирм, таких как прибыль и издержки, с помощью лингвистических правил. Информация представлена в виде фактов и набора их атрибутов. При выполнении работы были решены следующие задачи. Во-первых, собрана коллекция текстов, посвящённых заданной теме. Во-вторых, разработан метод извлечения информации и написан первоначальный набор лингвистических правил. В-третьих, реализована и протестирована система, основанная на этом методе. Правила разрабатывались с опорой на ключевые слова и свободный порядок слов. Помимо базового набора правил, в процессе работы были написаны вспомогательные программы на Python и C#, облегчающие их разработку и тестирование. Несмотря на то, что система зависит от предметной области и языка, она достигает удовлетворительных показателей эффективности извлечения: точность - 0.83, полнота - 0.63 и F-мера - 0.72.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Расширенный поиск ВКР